En la era de los grandes modelos de lenguaje (LLMs), las empresas compiten por desplegar el mejor modelo posible para sus aplicaciones. La tarea parece sencilla, pero la mayoría de las organizaciones luchan con un obstáculo clave: ¿cómo identificar qué funciona mejor para sus casos de uso altamente específicos cuando las cosas evolucionan tan rápidamente en el ecosistema?
Not Diamond, una nueva startup emergente de la clandestinidad hoy, afirma que la respuesta radica en el enrutamiento inteligente.
La startup con sede en San Francisco ha desarrollado un enrutador LLM novedoso, que permite a las empresas tener múltiples modelos en juego y dirigir las consultas al mejor, mejorando no solo la calidad de las salidas, sino también otros aspectos críticos de uso como la latencia general y los costos asociados.

«La base de nuestra apuesta es que el futuro no tendrá un solo modelo gigante o empresa a la que todos envíen todo, en cambio, habrá muchos modelos base, millones de variantes ajustadas de esos modelos y numerosos motores de inferencia personalizados ejecutándose sobre ellos. Comenzamos Not Diamond para habilitar este futuro multi-modelo, comenzando con la infraestructura tecnológica más potente para enrutamiento entre modelos», dijo Tomás Hernando Kofman, CEO y cofundador de Not Diamond, en un comunicado.
A pesar de ser una empresa muy nueva, ha captado significativa atención. Ha recaudado $2.3 millones en financiamiento inicial de defy.vc y varios nombres destacados en la industria de la IA, como el científico jefe de Google DeepMind, Jeff Dean, Julien Chaumond de Hugging Face, Zack Kass de OpenAI, el presidente de Databricks Ion Stoica, Tom Preston-Werner de GitHub y Jeff Weiner de LinkedIn.
El dilema del coste de los LLM frente al rendimiento específico de la tarea
El actual ecosistema de grandes modelos de lenguaje es muy complejo. Cada modelo, ya sea de código abierto o no, tiene su propio conjunto de fortalezas y debilidades.
Por tanto, si se opta por un modelo con una longitud de contexto masiva y un alto rendimiento, existe una buena probabilidad de que el coste sea demasiado alto.
Por otro lado, si es asequible, podría estar perdiendo alguna capacidad relevante o su latencia podría ser demasiado alta.
¿Cuál es la tendencia de los costes de razonamiento de la IA con el tiempo? Realicé un gráfico que muestra el rendimiento de los modelos de lenguaje en el benchmark MMLU frente a sus costes, abarcando desde 2022 hasta el día de hoy. La tendencia es clara: a medida que avanza el tiempo, los modelos de lenguaje alcanzan una mayor precisión MMLU…
Además, cada día se añaden nuevos modelos a la ecuación y los antiguos se actualizan con mejoras significativas (acabo de ver lo bueno que puede ser la inteligencia artificial de código abierto con Llama 3.1).
Cómo ayuda Not Diamond a las empresas
Kofman, que estaba desarrollando un producto de IA sin código, también se enfrentó al dilema de los LLM. Visualizó la solución en una interfaz que pudiera ayudar a las empresas a acceder a una red de diferentes modelos especializados, en lugar de depender de un solo modelo.
Esto lo llevó a colaborar con sus colegas de aprendizaje automático Tze-Yang Tung y Jeffrey Akiki y crear Not Diamond con la misión de construir la infraestructura para enrutamiento inteligente de consultas entre modelos.
«La infraestructura de enrutamiento sólida será fundamental para maximizar la eficacia de los sistemas de IA… Los modelos pequeños y especializados pueden superar a los modelos más grandes en dominios estrechos, y el enrutamiento otorga a los modelos especiales la robustez de los modelos generales. Esto no solo es más eficiente computacionalmente, obtenemos enormes beneficios de interpretabilidad y seguridad como bonus gratuito», dijo Kofman a VentureBeat.
En su núcleo, el enrutador de Not Diamond comprende una consulta que entra en una aplicación y luego utiliza un ‘meta-modelo’ para dirigirla automáticamente al modelo que mejor puede manejarla con precisión, al tiempo que proporciona beneficios de coste y latencia.
Según Kofman, esto puede salvar fácilmente a los equipos de la molestia de llamar al mismo modelo grande cada vez, incluso cuando la consulta no es lo suficientemente complicada para ello.
En los resultados del benchmark compartidos, el enrutador de Not Diamond trabajando con varios LLMs ofreció resultados mucho mejores que los modelos individuales, incluidos Llama-3.1 y GPT-4o.
Para llevar la oferta a la vida, Not Diamond primero construyó un gran conjunto de datos de evaluación que evaluaba el rendimiento de diferentes LLMs en todo, desde respuestas a preguntas hasta codificación hasta razonamiento.
Luego, utilizando este conjunto de datos, la empresa entrenó un algoritmo de clasificación que determina qué LLM es el más adecuado para responder a una consulta determinada. Esta decisión impulsa en última instancia la acción de enrutamiento.
Primero lanzó en código abierto una vista previa ligera de su enrutador en diciembre de 2023, permitiendo a las empresas manejar automáticamente las consultas entre GPT-3.5 y GPT-4, y luego se expandió a otros modelos en el mercado.
Si un equipo desea utilizar el enrutador en sus flujos de trabajo internos para casos de uso seleccionados, pueden proporcionar conjuntos de datos de evaluación internos para entrenar un enrutador personalizado que elija el modelo más adecuado. Incluye la opción de hashear todos los datos enviados a la API, así como la traducción de indicaciones para optimizar la indicación de acuerdo con el modelo al que se dirige.
Objetivo de acelerar la adopción por parte de los desarrolladores
A pesar de estar en las etapas iniciales, Not Diamond está viendo una adopción significativa, especialmente por parte de empresas en etapas tempranas e intermedias y desarrolladores independientes. El CEO no reveló el número exacto de estos usuarios iniciales, pero confirmó que un cliente empresarial, Samwell AI, observó una mejora del 10% en la calidad de salida de LLM con una reducción del 10% en los costes de inferencia y la latencia con la tecnología de la empresa.
Con la financiación de líderes de la industria, la empresa espera construir sobre este trabajo acelerando aún más el desarrollo del producto y aumentando las tasas de adopción. Kofman confirmó que la empresa tiene un «haz de características adicionales del producto» en preparación, pero aún no puede compartir mucho al respecto.
En el espacio de enrutamiento inteligente de consultas, la empresa compite con algunas startups notables, incluyendo Martian y Unify. Sin embargo, el CEO dice que se diferencia de estos jugadores con su velocidad de enrutamiento ultrarrápida y características de optimización y privacidad de indicaciones.

GIPHY App Key not set. Please check settings