Investigadores de la Universidad de California, Los Ángeles (UCLA) y Meta AI han presentado un innovador marco denominado d1, diseñado para potenciar las capacidades de razonamiento de los modelos de lenguaje grandes basados en difusión (dLLMs). A diferencia de los modelos autorrectores tradicionales como GPT-4o y Llama, los dLLMs ofrecen ventajas notables en términos de eficiencia y procesamiento de información, lo que podría ser crucial para diversas aplicaciones empresariales.
Entendiendo los Modelos de Lenguaje de Difusión
Los modelos de lenguaje grandes (LLMs) más comunes, como GPT-4o y Llama, son autorrectores (AR). Generan texto secuencialmente, prediciendo el siguiente token basándose únicamente en los tokens anteriores. Por otro lado, los modelos de lenguaje de difusión (dLLMs) funcionan de manera diferente. Estos modelos fueron inicialmente utilizados en modelos de generación de imágenes como DALL-E 2, Midjourney y Stable Diffusion. La idea central implica agregar ruido gradualmente a una imagen hasta convertirla en estática pura, y luego entrenar un modelo para revertir este proceso de manera meticulosa, comenzando desde el ruido y refinándolo progresivamente en una imagen coherente.
Adaptar este concepto directamente al lenguaje resultó complicado debido a que el texto está compuesto por unidades discretas (tokens), a diferencia de los valores de píxeles continuos en las imágenes. Los investigadores superaron este obstáculo desarrollando modelos de difusión de lenguaje enmascarados. En lugar de agregar ruido continuo, estos modelos funcionan enmascarando aleatoriamente tokens en una secuencia y entrenando el modelo para predecir los tokens originales.

Esto conduce a un proceso de generación diferente al de los modelos autorrectores. Los dLLMs comienzan con una versión muy enmascarada del texto de entrada y gradualmente "desenmascaran" o perfeccionan el texto a lo largo de varios pasos hasta que emerge la salida coherente final. Esta generación de "grano a fino" permite a los dLLMs considerar todo el contexto simultáneamente en cada paso, en lugar de centrarse únicamente en el siguiente token.
Ventajas de los dLLMs
Los dLLMs tienen ventajas potenciales, como un mejor procesamiento paralelo durante la generación, lo que podría conducir a una inferencia más rápida, especialmente para secuencias más largas. Ejemplos de este tipo de modelo incluyen el LLaDA de código abierto y el modelo Mercury de Inception Labs de código cerrado.
Aunque los modelos autorrectores pueden utilizar el razonamiento para mejorar la calidad, esta mejora conlleva un alto costo computacional, con tiempos de latencia de más de 30 segundos para generar una sola respuesta. En contraste, los dLLMs ofrecen eficiencia computacional; por ejemplo, los dLLMs de frontera como Mercury pueden superar a los mejores modelos autorrectores optimizados para velocidad en un 10x en rendimiento para los usuarios.
Aprendizaje por Refuerzo para dLLMs
A pesar de sus ventajas, los dLLMs aún están rezagados respecto a los modelos autorrectores en capacidades de razonamiento. El aprendizaje por refuerzo (RL) se ha vuelto crucial para enseñar a los LLMs habilidades complejas de razonamiento. Al entrenar modelos basados en señales de recompensa, el RL ha impulsado a los LLMs hacia un mejor seguimiento de instrucciones y razonamiento.
Sin embargo, aplicar el RL a los dLLMs ha sido un desafío. El marco d1 aborda este desafío con un proceso de post-entrenamiento en dos etapas diseñado específicamente para dLLMs enmascarados:
- Ajuste fino supervisado (SFT): El dLLM pre-entrenado se ajusta finamente en un conjunto de datos de ejemplos de razonamiento de alta calidad.
- Aprendizaje por refuerzo con diffu-GRPO: El modelo se somete a entrenamiento de RL utilizando un algoritmo novedoso llamado diffu-GRPO, que adapta los principios de GRPO a los dLLMs.
Aplicaciones en el Mundo Real
Los investigadores aplicaron el marco d1 a LLaDA-8B-Instruct, un dLLM de código abierto. Los resultados mostraron que el d1-LLaDA completo logró consistentemente el mejor rendimiento en todas las tareas, especialmente en razonamiento matemático y lógico.
Los modelos equipados con d1 exhibieron mejoras cualitativas, especialmente al generar respuestas más largas, demostrando "momentos eureka" y comportamientos de autocorrección aprendidos de los ejemplos en el conjunto de datos s1k. Esto sugiere que el modelo no solo memoriza respuestas, sino que aprende estrategias más robustas de resolución de problemas.
Conclusión
El marco d1 representa un avance significativo en el campo de los modelos de lenguaje de difusión, ofreciendo una alternativa eficiente y efectiva para mejorar las capacidades de razonamiento. Con aplicaciones potenciales en diversas áreas, como la automatización de flujos de trabajo digitales y la aceleración de tareas de investigación, d1 se posiciona como una herramienta prometedora para el futuro de la inteligencia artificial.

GIPHY App Key not set. Please check settings