Nuevo descubrimiento: Datos de entrenamiento mejoran desempeño de IA en tareas distintas.

Un nuevo estudio ha revelado que la inclusión de código en los datos de pre-entrenamiento mejora el rendimiento de los modelos de lenguaje a gran escala (LLMs) en tareas no relacionadas con la programación. Los investigadores de Cohere han llevado a cabo una investigación exhaustiva sobre cómo el código impacta en el rendimiento general de los LLMs más allá de las tareas de codificación.

En la investigación, se encontró que el código desempeña un papel crucial en la mejora del desempeño de los LLMs en una amplia gama de tareas no relacionadas con el código. Los experimentos revelaron que los modelos entrenados en código superaron consistentemente a los modelos entrenados solo en texto en tareas de razonamiento del lenguaje natural. De hecho, la inicialización de un modelo pre-entrenado con un 100% de datos de código llevó al mejor rendimiento en estas pruebas.

Para las tareas de conocimiento del mundo, una mezcla equilibrada de código y texto en los datos de pre-entrenamiento resultó en el mejor rendimiento. En cuanto a las tareas generativas, tanto los modelos solo de código como los modelos equilibrados superaron al modelo solo de texto, lo que confirma que la inclusión de datos de código en la mezcla de pre-entrenamiento no solo mejora el razonamiento, sino que también ayuda al modelo a producir generaciones de mejor calidad.

Además, se observó que los beneficios del código en los datos de pre-entrenamiento aumentaron con el tamaño del modelo. Los resultados mostraron que el equilibrio entre las tareas de lenguaje natural y la generación de código aumenta con el tamaño del modelo. En resumen, la inclusión de código en los datos de pre-entrenamiento demostró tener un impacto positivo en el rendimiento de los LLMs en tareas no relacionadas con el código.

Los investigadores también descubrieron que la adición de código sintético de alta calidad a los datos de pre-entrenamiento mejoró significativamente el rendimiento de los modelos. Este enfoque es especialmente útil ya que no depende del código generado por humanos, que suele ser limitado en cantidad.

En conclusion, la incorporación de código en la fase de enfriamiento del entrenamiento también condujo a mejoras en el rendimiento de los LLMs en diversas tareas no relacionadas con el código. Estos hallazgos pueden ser relevantes para empresas que buscan mejorar sus modelos con sus propios datos en lugar de entrenar modelos desde cero.

El estudio realizado por Cohere proporciona información valiosa sobre cómo la inclusión de código en los datos de pre-entrenamiento puede tener un impacto significativo en el rendimiento de los LLMs en una variedad de tareas. Asimismo, sugiere nuevas direcciones para la mejora de modelos pre-entrenados y productos basados en estos hallazgos.

¿Qué opinas?

120 Votos
Upvote Downvote

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Trágica muerte en pelea: Nueva víctima de homicidio en Montreal

Nueva experiencia inmersiva: enfrenta gigantes en realidad virtual con Skydance’s Behemoth