El revolucionario GenRM de DeepMind aumenta precisión del LLM autoverificando resultados.

Un nuevo enfoque llamado GenRM, desarrollado por investigadores de Google DeepMind, University of Toronto, Mila y UCLA, ha surgido para mejorar la precisión de los modelos de lenguaje de gran escala (LLMs) al permitir que estos verifiquen sus propias salidas. Este avance es fundamental, ya que los LLMs suelen cometer errores factuales y lógicos, especialmente en tareas de razonamiento complejas.

En lugar de depender de verificadores o modelos de recompensa externos, como se hacía comúnmente, GenRM entrena verificadores utilizando la predicción de siguiente token para aprovechar las capacidades generativas de los LLMs. Esta metodología permite a los verificadores generar pensamientos intermedios o críticas antes de tomar decisiones sobre la corrección de las soluciones, lo que puede identificar errores de razonamiento sutiles que los verificadores directos podrían pasar por alto.

Los experimentos llevados a cabo por los investigadores de DeepMind demostraron que GenRM con chain-of-thought superó consistentemente a otros métodos de verificación en tareas de razonamiento, como la concatenación de la última letra, la ordenación de palabras y los problemas matemáticos de palabras. Incluso superó a modelos especialmente entrenados y destacados como GPT-4 y Gemini 1.5 Pro en el benchmark de razonamiento matemático GSM8K.

Además, se observó que GenRM escala favorablemente con el tamaño del conjunto de datos y la capacidad del modelo. Asimismo, continuó mejorando cuando se le permitió muestrear más respuestas, lo que brinda a los desarrolladores de aplicaciones de LLM más flexibilidad para equilibrar la precisión y los costos computacionales.

El potencial futuro de GenRM incluye la ampliación de las críticas sintéticas de verificación en tareas de generación abierta, la integración de GenRM en pipelines de aprendizaje por refuerzo y la explotación de las capacidades avanzadas de los LLMs, como el aprendizaje de pocos ejemplos, la generación aumentada por recuperación, ReAct y la generación y ejecución de código para mejorar la verificación.

En resumen, GenRM representa un avance significativo en la mejora de la precisión de los LLMs al permitirles verificarse a sí mismos, lo que resulta en mejores soluciones para tareas de razonamiento complejas. Este enfoque innovador promete impulsar aún más el desarrollo y la eficacia de los modelos de lenguaje a gran escala en el futuro cercano.

¿Qué opinas?

120 Votos
Upvote Downvote

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

El gobierno de Manitoba lucha con ajuste presupuestario en su primer año.

Los Mejores Equipos de Fútbol Americano Universitario: Análisis de la Semana 1.