Nuevos modelos de inteligencia artificial de Apple superan a la competencia

Apple demuestra su potencia en IA abierta: nuevos modelos superan a Mistral y Hugging Face

La empresa Apple ha ampliado su familia de modelos pequeños en un movimiento que ha llamado la atención del mundo sobre el rendimiento del nuevo GPT-4o-mini. El equipo de investigación de Apple, como parte del proyecto DataComp for Language Models, lanzó recientemente una nueva familia de modelos DCLM abiertos en la plataforma Hugging Face.

Estos modelos incluyen dos variantes principales: una con 7 mil millones de parámetros y otra con 1.4 mil millones de parámetros. Ambos modelos han mostrado un desempeño notable en las pruebas, destacándose especialmente el modelo más grande, que ha superado a Mistral-7B y se acerca a otros modelos abiertos líderes como Llama 3 y Gemma.

Vaishaal Shankar, del equipo de aprendizaje automático de Apple, ha descrito estos modelos como los mejores en su categoría de código abierto. Es importante destacar que el proyecto se ha convertido realmente en código abierto con la liberación de los pesos del modelo, el código de entrenamiento y el conjunto de datos de preentrenamiento.

El equipo multidisciplinario liderado por Apple, la Universidad de Washington, la Universidad de Tel Aviv y el Instituto de Investigación de Toyota ha trabajado en el proyecto DataComp con el objetivo de diseñar conjuntos de datos de alta calidad para entrenar modelos de IA, especialmente en el dominio multimodal. La projecto busca utilizar un marco estandarizado con arquitecturas de modelo fijas, códigos de entrenamiento, hiperparámetros y evaluaciones específicas para determinar cuál estrategia de curación de datos funciona mejor para entrenar un modelo altamente efectivo.

Los experimentos realizados en el proyecto llevaron al equipo a descubrir que la filtración basada en modelos, donde los modelos de aprendizaje automático seleccionan automáticamente datos de alta calidad en grandes conjuntos de datos, puede ser fundamental para reunir un conjunto de entrenamiento de alta calidad. Para demostrar la eficacia de esta técnica de curación, el conjunto de datos resultante, DCLM-Baseline, se utilizó para entrenar los nuevos modelos de lenguaje en inglés de decodificador solo DCLM con 7 mil millones y 1.4 mil millones de parámetros desde cero.

El modelo de 7 mil millones, entrenado en 2.5 billones de tokens utilizando recetas de preentrenamiento basadas en el framework OpenLM, tiene una ventana de contexto de 2K y ofrece una precisión del 63.7% en 5 disparos en MMLU. Según los investigadores, esto representa una mejora de 6.6 puntos porcentuales en la referencia en comparación con MAP-Neo, el estado del arte anterior en la categoría de modelos de lenguaje de datos abiertos, y todo esto utilizando un 40% menos de cómputo para el entrenamiento.

El rendimiento del modelo en benchmarks Core y Extended (promedio de docenas de tareas diferentes, incluyendo HellaSwag y ARC-E) mejoró aún más cuando los investigadores extendieron su longitud de contexto a 8K al realizar 100 mil millones de entrenamiento adicional en el mismo conjunto de datos, utilizando la técnica de descomposición de conjuntos de datos. El resultado en MMLU, sin embargo, permaneció invariable.

Así, Apple ha lanzado un modelo LLM de código abierto con 7 mil millones de parámetros, pesos del modelo, código de entrenamiento y conjunto de datos incluidos. Por otro lado, la versión más pequeña, con 1.4 mil millones de parámetros, ha sido lanzada bajo la licencia Apache 2.0, lo que permite su uso comercial, distribución y modificación. Se destaca también que hay una versión del modelo de 7 mil millones de parámetros ajustada para instrucciones en la biblioteca de Hugging Face.

En resumen, este estudio resalta la importancia del diseño de conjunto de datos para el entrenamiento de modelos de lenguaje y sirve como punto de partida para futuras investigaciones sobre la curación de datos. Cabe mencionar que estos modelos son parte de una investigación temprana y no están destinados a dispositivos de Apple, pudiendo presentar ciertos sesgos provenientes de los datos de entrenamiento o generar respuestas perjudiciales.

Nuevos modelos de inteligencia artificial de Apple superan a la competencia

¿Qué opinas?

Escrito por Redacción - El Semanal

Deja una respuestaCancelar la respuesta

Ingenieros de OpenAI crean agente de datos IA usado por 4,000 empleados y replicable por todos

1xbet impulsa el emprendimiento digital con Blogtrepreneur

Disculpa de organizadores por error con delegación surcoreana en Juegos Olímpicos

Estrellas de Hollywood que debes conocer según expertos de cine.

Descubre los Mejores Formatos para Seguir tus Hábitos a Diario

La teoría cuántica redefine los principios de las relaciones internacionales

OpenAI, Nvidia y Hugging Face revelan nuevos modelos de inteligencia artificial: GPT-4o Mini, Mistral-Nemo y SmolLM destacan en la industria.

La App Store de Apple se renueva con avances en Inteligencia Artificial

Incendios forestales en Canadá: Seguimiento de la calidad del aire y brotes de enfermedades

Socio de Boissonnault enfrenta acusación de desacato al Parlamento.

McGuinty asegura bienestar de tropas canadienses en Oriente Medio pese a conflicto iraní

Gattinoni renace en Milán con moda blanca en medio de crisis globales.

Infinix nombra a YUNA de ITZY embajadora global de tecnología.

Hodakova desvela su colección Ready-to-Wear otoño 2026 en pasarela

Endor Labs lanza AURI gratuita tras estudio que revela 90% inseguridad en código IA

¿Qué opinas?

Deja una respuestaCancelar la respuesta

Log In

With social network:

Or with username:

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Suscríbete a El Semanal