Meta revoluciona la formación de modelos con su creador de datos personalizado.

Investigadores de Meta FAIR han desarrollado una nueva y revolucionaria técnica llamada Evaluador Autodidacta, la cual utiliza datos sintéticos para entrenar a evaluadores de grandes modelos de lenguaje (LLMs) sin necesidad de anotaciones humanas. Este enfoque podría mejorar significativamente la eficiencia y la escalabilidad de la evaluación de LLMs para empresas que desean construir modelos personalizados.

La evaluación de LLMs ha sido tradicionalmente realizada por humanos, lo cual es lento, costoso y requiere expertos especializados. El uso de LLMs como evaluadores puede ser crucial en tareas con múltiples respuestas válidas, como la escritura creativa o la programación. Sin embargo, la necesidad de datos humanos anotados para entrenar a estos evaluadores puede ser un obstáculo para el desarrollo rápido de nuevas aplicaciones basadas en LLMs.

El Evaluador Autodidacta aborda este desafío al eliminar la necesidad de datos etiquetados por humanos. Se basa en el concepto de LLM-como-Juez, donde el modelo recibe una entrada, dos posibles respuestas y una indicación de evaluación. El objetivo es determinar cuál es la mejor respuesta generando una cadena de razonamiento que llegue al resultado correcto.

Este enfoque comienza con un LLM inicial y una gran cantidad de instrucciones humanas no etiquetadas. El modelo selecciona un grupo de instrucciones e, para cada una, genera un par de respuestas del modelo: una designada como «elegida» y la otra como «rechazada». La respuesta elegida se diseña para ser de mayor calidad que la respuesta rechazada.

El modelo se entrena de manera iterativa, generando múltiples rastros de razonamiento y evaluaciones para cada ejemplo. Si el modelo produce una cadena de razonamiento correcta, el ejemplo se agrega al conjunto de entrenamiento. El conjunto final se compone de ejemplos que incluyen la instrucción de entrada, un par de respuestas verdaderas y falsas, y una cadena de juicios. Posteriormente, el modelo se ajusta en este nuevo conjunto de entrenamiento para la siguiente iteración.

Los investigadores probaron su Evaluador Autodidacta utilizando el modelo Llama 3-70B-Instruct y el conjunto de datos WildChat, obteniendo mejoras significativas en la precisión del modelo base en el benchmark RewardBench. Este rendimiento se acercó e incluso superó a modelos entrenados con datos etiquetados por humanos, incluso superando algunos modelos privados de vanguardia.

Estas mejoras también se observaron en el benchmark MT-Bench, que evalúa el desempeño de LLMs en conversaciones de múltiples turnos.

En un contexto empresarial, el Evaluador Autodidacta puede beneficiar a las empresas que poseen grandes cantidades de datos corporativos no etiquetados y desean ajustar modelos con sus propios datos sin necesidad de anotaciones manuales extensivas. Además, puede ofrecer indicios sobre cómo Meta utilizará su rico conjunto de datos no etiquetados de usuarios para entrenar y mejorar sus modelos actuales y futuros.

A pesar de sus bondades, el Evaluador Autodidacta tiene limitaciones, como depender de un modelo inicial alineado con las preferencias humanas. Las empresas deberán elegir cuidadosamente los modelos iniciales relevantes para sus datos y tareas específicas. Es fundamental recordar que los benchmarks estándar pueden no representar totalmente las capacidades y limitaciones de los LLMs. Por tanto, las empresas deberán realizar pruebas manuales en diversas etapas del proceso de entrenamiento y evaluación para garantizar que el modelo mejore de acuerdo a sus expectativas reales.

¿Qué opinas?

120 Votos
Upvote Downvote

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Thierry Henry abandona cargo en selección juvenil tras participación en Juegos de París

Desafío judicial a ley de muerte asistida en Canadá.