Arcee AI lanza SuperNova: Modelo adaptable para empresas que siguen instrucciones.

Arcee AI ha presentado hoy SuperNova, un modelo de lenguaje de 70 mil millones de parámetros diseñado para implementación empresarial, que destaca por sus avanzadas capacidades de seguimiento de instrucciones y opciones de personalización completas. Este modelo busca ofrecer una alternativa poderosa y propia a los servicios basados en API de OpenAI y Anthropic, abordando preocupaciones clave en torno a la privacidad de datos, estabilidad del modelo y personalización.

En un panorama de IA dominado por APIs basadas en la nube, Arcee AI está adoptando un enfoque diferente con SuperNova. Este gran modelo de lenguaje (LLM) puede ser implementado y personalizado dentro de la infraestructura de una empresa. SuperNova, lanzado hoy, se basa en la arquitectura Meta’s Llama-3.1-70B-Instruct y utiliza un novedoso proceso de post-entrenamiento que, según Arcee, resulta en una adherencia superior a las instrucciones y adaptabilidad a las necesidades específicas de cada negocio.

El desarrollo de SuperNova involucró un enfoque multifacético para el post-entrenamiento, como explicó Lucas Atkins, ingeniero líder del proyecto:

«Entrenamos tres modelos simultáneamente. Uno fue destilado del Llama 405B. Otro fue entrenado con un conjunto de datos que generamos con nuestro repositorio EvolKit. Y el tercero estaba realizando un exhaustivo DPO sobre el instruct actual del Llama 3. Al final, utilizamos una nueva técnica de fusión para combinar los tres, preservando las fortalezas de cada uno.»

Este proceso, considerado propiedad de Arcee, resultó en lo que afirman ser capacidades de seguimiento de instrucciones altamente avanzadas. La destilación de un modelo de 405B parámetros es particularmente destacable, ya que sugiere que SuperNova puede capturar algunas de las capacidades de modelos mucho más grandes mientras se puede implementar en hardware más modesto.

SuperNova está diseñado para ser implementado dentro del entorno de nube de una empresa, comenzando con la disponibilidad en AWS Marketplace. Arcee también está trabajando para que esté disponible en los marketplaces de Google y Azure. Mark McQuade, cofundador de Arcee AI, destacó el proceso de despliegue:

«El modelo se implementa en tu AWS VPC, pero también pone en marcha un servidor web, una interfaz de chat y una base de datos para almacenar el historial de tus chats. Todos en tu organización pueden interactuar con él.»

Este modelo de implementación aborda preocupaciones clave de las empresas en torno a la privacidad de datos y la estabilidad del modelo. A diferencia de los servicios basados en API que pueden quedar obsoletos o cambiar sin previo aviso, SuperNova brinda a las empresas un control total sobre sus activos de IA. Esto es particularmente relevante a la luz de eventos recientes en la industria de la IA, según señaló McQuade.

La capacidad de implementar SuperNova dentro del Virtual Private Cloud (VPC) de una empresa asegura que los datos sensibles nunca salgan del control de la organización. Esto puede ser importante para empresas en industrias reguladas o que manejan información confidencial.

Una característica clave de SuperNova es su capacidad de ser afinada y re-entrenada dentro del entorno empresarial. Atkins explicó el proceso y sus beneficios:

«Con el tiempo, podemos volver a entrenar el modelo por completo dentro de tu propio entorno para alinearlo mejor con tus preferencias. A medida que guardamos esos chats, si deseas que el modelo mejore en general para tus preferencias únicas como empresa, tenemos la capacidad de hacerlo sin que esos datos abandonen tu sistema.»

Esta capacidad permite a los equipos técnicos adaptar el modelo al conocimiento específico del dominio o a los requisitos específicos de la empresa con el tiempo. Es una ventaja significativa sobre los servicios de API basados en la nube, que típicamente no permiten este nivel de personalización.

La posibilidad de personalización y mejora continua es especialmente destacable. A medida que el modelo interactúa con los usuarios dentro de una organización, puede aprender de esas interacciones y mejorar su rendimiento en tareas específicas de la empresa. Esto crea un ciclo virtuoso donde cuanto más se utiliza el modelo, más valioso se vuelve para la organización.

Aunque el modelo completo de 70B no es de código abierto, Arcee está lanzando varios componentes para la comunidad de desarrolladores:
– Una API gratuita para pruebas y evaluación: esto permite a los desarrolladores experimentar con SuperNova sin comprometerse con una implementación completa.
– SuperNova-Lite: una versión de 8B parámetros de código abierto del modelo. Este modelo más pequeño podría ser útil para desarrolladores que trabajan en entornos con recursos limitados o para aquellos que desean comprender la arquitectura antes de implementar el modelo completo.
– EvolKit: su canalización de generación de conjuntos de datos para crear pares de preguntas-respuestas complejas. Esta herramienta podría ser valiosa para organizaciones que buscan crear datos de entrenamiento personalizados para sus casos de uso específicos.

Al abrir estos componentes, Arcee está contribuyendo a la comunidad de IA en general y proporcionando a los posibles clientes herramientas para evaluar y personalizar su oferta. Arcee SuperNova también está disponible en AWS Marketplace.

Arcee afirma que SuperNova se desempeña bien en diversas áreas, con una fortaleza particular en razonamiento matemático. «Este destaca en las evaluaciones matemáticas», destacó Atkins. Sin embargo, la compañía está alentando las evaluaciones de terceros para verificar sus afirmaciones.

«Vamos a tener una API disponible para que las personas la utilicen. Y si hay terceros que quieran realizar evaluaciones creíbles para verificarlo por sí mismos, podemos hacer arreglos para proporcionarles acceso a los pesos. Queremos tener total transparencia con este modelo», dijo Atkins.

Esta apertura a evaluaciones de terceros es loable, ya que permite la verificación independiente de las afirmaciones de Arcee. Será particularmente interesante ver cómo se desempeña SuperNova en las evaluaciones estándar en comparación con modelos de OpenAI, Anthropic y otras empresas líderes en IA.

El énfasis en el razonamiento matemático es notable, ya que esta ha sido un área desafiante para muchos modelos de lenguaje. Si SuperNova realmente sobresale en este dominio, podría ser particularmente valioso para industrias como finanzas, ingeniería e investigación científica.