Un nuevo enfoque llamado GenRM, desarrollado por investigadores de Google DeepMind, University of Toronto, Mila y UCLA, ha surgido para mejorar la precisión de los modelos de lenguaje de gran escala (LLMs) al permitir que estos verifiquen sus propias salidas. Este avance es fundamental, ya que los LLMs suelen cometer errores factuales y lógicos, especialmente en tareas de razonamiento complejas.
En lugar de depender de verificadores o modelos de recompensa externos, como se hacía comúnmente, GenRM entrena verificadores utilizando la predicción de siguiente token para aprovechar las capacidades generativas de los LLMs. Esta metodología permite a los verificadores generar pensamientos intermedios o críticas antes de tomar decisiones sobre la corrección de las soluciones, lo que puede identificar errores de razonamiento sutiles que los verificadores directos podrían pasar por alto.
Los experimentos llevados a cabo por los investigadores de DeepMind demostraron que GenRM con chain-of-thought superó consistentemente a otros métodos de verificación en tareas de razonamiento, como la concatenación de la última letra, la ordenación de palabras y los problemas matemáticos de palabras. Incluso superó a modelos especialmente entrenados y destacados como GPT-4 y Gemini 1.5 Pro en el benchmark de razonamiento matemático GSM8K.
Además, se observó que GenRM escala favorablemente con el tamaño del conjunto de datos y la capacidad del modelo. Asimismo, continuó mejorando cuando se le permitió muestrear más respuestas, lo que brinda a los desarrolladores de aplicaciones de LLM más flexibilidad para equilibrar la precisión y los costos computacionales.
El potencial futuro de GenRM incluye la ampliación de las críticas sintéticas de verificación en tareas de generación abierta, la integración de GenRM en pipelines de aprendizaje por refuerzo y la explotación de las capacidades avanzadas de los LLMs, como el aprendizaje de pocos ejemplos, la generación aumentada por recuperación, ReAct y la generación y ejecución de código para mejorar la verificación.
En resumen, GenRM representa un avance significativo en la mejora de la precisión de los LLMs al permitirles verificarse a sí mismos, lo que resulta en mejores soluciones para tareas de razonamiento complejas. Este enfoque innovador promete impulsar aún más el desarrollo y la eficacia de los modelos de lenguaje a gran escala en el futuro cercano.
GIPHY App Key not set. Please check settings