AI2 presenta nuevo modelo accesible y potente para la inteligencia artificial.

El Instituto Allen de Inteligencia Artificial (AI2) ha lanzado un modelo innovador que busca ser abierto, poderoso y al mismo tiempo rentable. El nuevo modelo, denominado OLMoE, utiliza una arquitectura de expertos en mezclas dispersas (MoE) que cuenta con 7 mil millones de parámetros, pero solo utiliza 1 mil millones de parámetros por token de entrada. Esta propuesta se compone de dos versiones: OLMoE-1B-7B, más versátil, y OLMoE-1B-7B-Instruct, orientada a la configuración específica para instrucciones.

AI2 resalta que OLMoE es completamente de código abierto, a diferencia de otros modelos de mezcla de expertos que existen en el mercado. Esta apertura facilita el acceso a académicos e investigadores interesados en el campo, que muchas veces encuentran limitaciones en los modelos cerrados que no comparten información detallada sobre sus datos de entrenamiento o código fuente.

Nathan Lambert, científico investigador de AI2, expresó a través de una plataforma social que OLMoE contribuirá significativamente al ámbito académico y de investigación en inteligencia artificial. Esta iniciativa representa un paso adelante para construir modelos de código abierto que compitan en rendimiento con los modelos cerrados del mercado.

La construcción de OLMoE se fundamenta en un enfoque detallado de ruteo con 64 pequeños expertos activados de a ocho en cada proceso. Los experimentos realizados demostraron que el modelo, además de ofrecer un rendimiento similar a otros modelos, logra reducir significativamente los costos de inferencia y almacenamiento en memoria.

OLMoE se basa en el modelo de código abierto anterior de AI2, OLMO 1.7-7B, que soportaba una ventana de contexto de 4,096 tokens e incluía el conjunto de datos de entrenamiento Dolma 1.7 desarrollado para OLMO. OLMoE, entrenado con una combinación de datos de DCLM y Dolma, superó a otros modelos disponibles con parámetros activos similares, incluso superando a modelos más grandes como Llama2-13B-Chat y DeepSeekMoE-16B.

AI2 busca proporcionar modelos de inteligencia artificial totalmente de código abierto para investigación, incluyendo modelos basados en expertos en mezclas, una arquitectura cada vez más popular entre los desarrolladores en este campo. A pesar de la tendencia a utilizar modelos de MoE, AI2 destaca la falta de transparencia en muchos de estos modelos, que no comparten información vital sobre sus datos de entrenamiento o código fuente, en comparación con su enfoque de total apertura.

AI2 presenta nuevo modelo accesible y potente para la inteligencia artificial.

¿Qué opinas?

Escrito por Redacción - El Semanal

Deja una respuestaCancelar la respuesta

Ampliación del servicio de Comunicaciones en Rico con iPhone, llega a más operadoras con la versión beta 3 de iOS 18.

Dos fuertes sismos en el Pacífico ruso activan alerta por tsunami

El flamante rascacielos de Dubai prioriza la vida saludable desde su construcción.

Donald Trump considera eliminar impuestos en entrevista con Joe Rogan.

Trabajos en plataformas digitales que generan ingresos sin licencia de conducir

Josh Brolin y Julia Garner enfrentan tensiones en ‘Weapons’ pero forjan amistad fuera del set

Programa de médico virtual de emergencias como solución a crisis de médicos en B.C.

Revelada la fecha exacta de la disponibilidad de compras en la tienda

Trabajos en plataformas digitales que generan ingresos sin licencia de conducir

Josh Brolin y Julia Garner enfrentan tensiones en ‘Weapons’ pero forjan amistad fuera del set

Conductor multado con más de mil dólares por alcanzar 199 mph en la Autobahn alemana

Autoridades bosnias destituyen al líder serbobosnio separatista Dodik tras fallo electoral

Reguladores británicos cuestionan a todas las partes en el conflicto por la fundación de Harry y Seeiso

¿Qué opinas?

Deja una respuestaCancelar la respuesta

Log In

With social network:

Or with username:

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Suscríbete a El Semanal