Un nuevo estudio ha revelado que la inclusión de código en los datos de pre-entrenamiento mejora el rendimiento de los modelos de lenguaje a gran escala (LLMs) en tareas no relacionadas con la programación. Los investigadores de Cohere han llevado a cabo una investigación exhaustiva sobre cómo el código impacta en el rendimiento general de los LLMs más allá de las tareas de codificación.
En la investigación, se encontró que el código desempeña un papel crucial en la mejora del desempeño de los LLMs en una amplia gama de tareas no relacionadas con el código. Los experimentos revelaron que los modelos entrenados en código superaron consistentemente a los modelos entrenados solo en texto en tareas de razonamiento del lenguaje natural. De hecho, la inicialización de un modelo pre-entrenado con un 100% de datos de código llevó al mejor rendimiento en estas pruebas.
Para las tareas de conocimiento del mundo, una mezcla equilibrada de código y texto en los datos de pre-entrenamiento resultó en el mejor rendimiento. En cuanto a las tareas generativas, tanto los modelos solo de código como los modelos equilibrados superaron al modelo solo de texto, lo que confirma que la inclusión de datos de código en la mezcla de pre-entrenamiento no solo mejora el razonamiento, sino que también ayuda al modelo a producir generaciones de mejor calidad.
Además, se observó que los beneficios del código en los datos de pre-entrenamiento aumentaron con el tamaño del modelo. Los resultados mostraron que el equilibrio entre las tareas de lenguaje natural y la generación de código aumenta con el tamaño del modelo. En resumen, la inclusión de código en los datos de pre-entrenamiento demostró tener un impacto positivo en el rendimiento de los LLMs en tareas no relacionadas con el código.
Los investigadores también descubrieron que la adición de código sintético de alta calidad a los datos de pre-entrenamiento mejoró significativamente el rendimiento de los modelos. Este enfoque es especialmente útil ya que no depende del código generado por humanos, que suele ser limitado en cantidad.
En conclusion, la incorporación de código en la fase de enfriamiento del entrenamiento también condujo a mejoras en el rendimiento de los LLMs en diversas tareas no relacionadas con el código. Estos hallazgos pueden ser relevantes para empresas que buscan mejorar sus modelos con sus propios datos en lugar de entrenar modelos desde cero.
El estudio realizado por Cohere proporciona información valiosa sobre cómo la inclusión de código en los datos de pre-entrenamiento puede tener un impacto significativo en el rendimiento de los LLMs en una variedad de tareas. Asimismo, sugiere nuevas direcciones para la mejora de modelos pre-entrenados y productos basados en estos hallazgos.
GIPHY App Key not set. Please check settings