El Instituto Allen de Inteligencia Artificial (AI2) ha lanzado un modelo innovador que busca ser abierto, poderoso y al mismo tiempo rentable. El nuevo modelo, denominado OLMoE, utiliza una arquitectura de expertos en mezclas dispersas (MoE) que cuenta con 7 mil millones de parámetros, pero solo utiliza 1 mil millones de parámetros por token de entrada. Esta propuesta se compone de dos versiones: OLMoE-1B-7B, más versátil, y OLMoE-1B-7B-Instruct, orientada a la configuración específica para instrucciones.
AI2 resalta que OLMoE es completamente de código abierto, a diferencia de otros modelos de mezcla de expertos que existen en el mercado. Esta apertura facilita el acceso a académicos e investigadores interesados en el campo, que muchas veces encuentran limitaciones en los modelos cerrados que no comparten información detallada sobre sus datos de entrenamiento o código fuente.
Nathan Lambert, científico investigador de AI2, expresó a través de una plataforma social que OLMoE contribuirá significativamente al ámbito académico y de investigación en inteligencia artificial. Esta iniciativa representa un paso adelante para construir modelos de código abierto que compitan en rendimiento con los modelos cerrados del mercado.
La construcción de OLMoE se fundamenta en un enfoque detallado de ruteo con 64 pequeños expertos activados de a ocho en cada proceso. Los experimentos realizados demostraron que el modelo, además de ofrecer un rendimiento similar a otros modelos, logra reducir significativamente los costos de inferencia y almacenamiento en memoria.
OLMoE se basa en el modelo de código abierto anterior de AI2, OLMO 1.7-7B, que soportaba una ventana de contexto de 4,096 tokens e incluía el conjunto de datos de entrenamiento Dolma 1.7 desarrollado para OLMO. OLMoE, entrenado con una combinación de datos de DCLM y Dolma, superó a otros modelos disponibles con parámetros activos similares, incluso superando a modelos más grandes como Llama2-13B-Chat y DeepSeekMoE-16B.
AI2 busca proporcionar modelos de inteligencia artificial totalmente de código abierto para investigación, incluyendo modelos basados en expertos en mezclas, una arquitectura cada vez más popular entre los desarrolladores en este campo. A pesar de la tendencia a utilizar modelos de MoE, AI2 destaca la falta de transparencia en muchos de estos modelos, que no comparten información vital sobre sus datos de entrenamiento o código fuente, en comparación con su enfoque de total apertura.
GIPHY App Key not set. Please check settings