La compañía Cohere ha lanzado hoy dos nuevos modelos abiertos en su proyecto Aya para cerrar la brecha lingüística en los modelos fundamentales.
Aya Expanse 8B y 35B, disponibles actualmente en Hugging Face, mejoran el rendimiento en 23 idiomas. En una publicación de blog, Cohere mencionó que el modelo de 8B «hace que los avances sean más accesibles para investigadores de todo el mundo», mientras que el modelo de 32B proporciona capacidades multilingües de última generación.
El proyecto Aya busca ampliar el acceso a los modelos fundamentales en más idiomas globales además del inglés. Cohere for AI, el brazo de investigación de la empresa, lanzó la iniciativa Aya el año pasado. En febrero, lanzaron el modelo de lenguaje Aya 101 (LLM), un modelo de 13 mil millones de parámetros que cubre 101 idiomas. También lanzaron el conjunto de datos Aya para ayudar a ampliar el acceso a otros idiomas para el entrenamiento de modelos.
Aya Expanse utiliza gran parte de la misma metodología utilizada para construir Aya 101.
«Las mejoras en Aya Expanse son el resultado de un enfoque sostenido en expandir cómo la IA sirve a los idiomas de todo el mundo mediante la reconsideración de los bloques de construcción fundamentales para los avances en el aprendizaje automático», mencionó Cohere. «Nuestra agenda de investigación en los últimos años ha incluido un enfoque dedicado en cerrar la brecha lingüística, con varios avances que fueron críticos para la receta actual: arbitraje de datos, entrenamiento de preferencias para el rendimiento general y la seguridad, y finalmente la fusión de modelos».
Cohere desarrolló los modelos Aya utilizando un método de muestreo de datos llamado arbitraje de datos como un medio para evitar la generación de tonterías que ocurre cuando los modelos se basan en datos sintéticos. Muchos modelos utilizan datos sintéticos creados a partir de un modelo «maestro» con fines de entrenamiento. Sin embargo, debido a la dificultad para encontrar buenos modelos maestros para otros idiomas, especialmente para idiomas con pocos recursos.
El enfoque también se centró en guiar a los modelos hacia «preferencias globales» y tener en cuenta diferentes perspectivas culturales y lingüísticas. Cohere mencionó que encontraron una manera de mejorar el rendimiento y la seguridad incluso mientras guían las preferencias de los modelos.
«Pensamos en esto como el ‘brillo final’ en el entrenamiento de un modelo de IA», dijo la empresa. «Sin embargo, el entrenamiento de preferencias y las medidas de seguridad a menudo se ajustan en exceso a los daños prevalentes en los conjuntos de datos centrados en Occidente. Problemáticamente, estos protocolos de seguridad a menudo no se extienden a entornos multilingües. Nuestro trabajo es uno de los primeros en extender el entrenamiento de preferencias a un entorno masivamente multilingüe, teniendo en cuenta diferentes perspectivas culturales y lingüísticas».
La iniciativa Aya se enfoca en asegurar la investigación en torno a los LLM que funcionan bien en idiomas diferentes al inglés.
Muchos LLM eventualmente están disponibles en otros idiomas, especialmente para aquellos ampliamente hablados, pero existe dificultad en encontrar datos para entrenar modelos en los diferentes idiomas. Después de todo, el inglés tiende a ser el idioma oficial de los gobiernos, las finanzas, las conversaciones en internet y los negocios, por lo que es mucho más fácil encontrar datos en inglés. También puede ser difícil evaluar con precisión el rendimiento de los modelos en diferentes idiomas debido a la calidad de las traducciones.
Otros desarrolladores han lanzado sus propios conjuntos de datos de idiomas para investigar aún más los LLM no ingleses. Por ejemplo, OpenAI lanzó su Conjunto de Datos de Comprensión del Lenguaje Multitarea Masiva Multilingüe en Hugging Face el mes pasado. El conjunto de datos tiene como objetivo ayudar a probar mejor el rendimiento de LLM en 14 idiomas, incluidos el árabe, alemán, suajili y bengalí.
Cohere ha estado ocupado en estas últimas semanas. Esta semana, la compañía añadió capacidades de búsqueda de imágenes a Embed 3, su producto de incrustación empresarial utilizado en sistemas de recuperación aumentada por generación (RAG). También mejoró el ajuste fino para su modelo Command R 08-2024 este mes.
Considero que este artículo sobre los nuevos modelos de IA presentados por Cohere para unir idiomas en todo el mundo es bastante interesante. Sin embargo, me parece que se debería prestar más atención a la implementación de estos modelos en el ámbito educativo, ya que es crucial garantizar que la tecnología pueda ser accesible para todos, independientemente de su ubicación geográfica. Además, sería beneficioso profundizar en los posibles desafíos éticos y de privacidad que podrían surgir al utilizar esta tecnología a gran escala. En general, un enfoque más holístico en las implicaciones prácticas de estos avances sería enrique
¡Vaya, la idea de Cohere de unir idiomas a través de la IA suena genial! Imagina poder comunicarte con cualquier persona en su propio idioma sin barreras, ¡sería increíble! La tecnología avanza a pasos agigantados, y proyectos como este nos acercan a un mundo más conectado y diverso. Estoy emocionado por ver cómo esto puede cambiar la forma en que nos relacionamos a nivel global. ¡Enhorabuena a Cohere por esta innovación! 🌍🚀