El revolucionario GenRM de DeepMind aumenta precisión del LLM autoverificando resultados.

Un nuevo enfoque llamado GenRM, desarrollado por investigadores de Google DeepMind, University of Toronto, Mila y UCLA, ha surgido para mejorar la precisión de los modelos de lenguaje de gran escala (LLMs) al permitir que estos verifiquen sus propias salidas. Este avance es fundamental, ya que los LLMs suelen cometer errores factuales y lógicos, especialmente en tareas de razonamiento complejas.

En lugar de depender de verificadores o modelos de recompensa externos, como se hacía comúnmente, GenRM entrena verificadores utilizando la predicción de siguiente token para aprovechar las capacidades generativas de los LLMs. Esta metodología permite a los verificadores generar pensamientos intermedios o críticas antes de tomar decisiones sobre la corrección de las soluciones, lo que puede identificar errores de razonamiento sutiles que los verificadores directos podrían pasar por alto.

Los experimentos llevados a cabo por los investigadores de DeepMind demostraron que GenRM con chain-of-thought superó consistentemente a otros métodos de verificación en tareas de razonamiento, como la concatenación de la última letra, la ordenación de palabras y los problemas matemáticos de palabras. Incluso superó a modelos especialmente entrenados y destacados como GPT-4 y Gemini 1.5 Pro en el benchmark de razonamiento matemático GSM8K.

Además, se observó que GenRM escala favorablemente con el tamaño del conjunto de datos y la capacidad del modelo. Asimismo, continuó mejorando cuando se le permitió muestrear más respuestas, lo que brinda a los desarrolladores de aplicaciones de LLM más flexibilidad para equilibrar la precisión y los costos computacionales.

El potencial futuro de GenRM incluye la ampliación de las críticas sintéticas de verificación en tareas de generación abierta, la integración de GenRM en pipelines de aprendizaje por refuerzo y la explotación de las capacidades avanzadas de los LLMs, como el aprendizaje de pocos ejemplos, la generación aumentada por recuperación, ReAct y la generación y ejecución de código para mejorar la verificación.

En resumen, GenRM representa un avance significativo en la mejora de la precisión de los LLMs al permitirles verificarse a sí mismos, lo que resulta en mejores soluciones para tareas de razonamiento complejas. Este enfoque innovador promete impulsar aún más el desarrollo y la eficacia de los modelos de lenguaje a gran escala en el futuro cercano.

El revolucionario GenRM de DeepMind aumenta precisión del LLM autoverificando resultados.

¿Qué opinas?

Escrito por Redacción - El Semanal

Deja una respuestaCancelar la respuesta

Ampliación del servicio de Comunicaciones en Rico con iPhone, llega a más operadoras con la versión beta 3 de iOS 18.

Las declaraciones de Donald Trump tras recibir un disparo.

Increíble hazaña: crean anuncio complejo en menos de un día utilizando inteligencia artificial de Runway

Críticos analizan el impacto y méritos de ‘Wicked: For Good’ en la cultura musical

‘Michael’ (★★½☆☆), un retrato edulcorado de la estrella solo para los fans más complacientes

Sánchez, a Feijóo: El pacto extremeño PP-Vox da una «patada a la Constitución» al «violar» el principio de igualdad

El gobierno de Manitoba lucha con ajuste presupuestario en su primer año.

Los Mejores Equipos de Fútbol Americano Universitario: Análisis de la Semana 1.

Sánchez, a Feijóo: El pacto extremeño PP-Vox da una «patada a la Constitución» al «violar» el principio de igualdad

Varios países de la UE se suman a imponer sanciones contra Israel pero Alemania e Italia lo rechazan

Hidalgo niega haber dado 500.000 euros a Ábalos por el préstamo a Air Europa ni que tuviera influencia Begoña Gómez

El nominado de Trump para dirigir la Reserva Federal niega que vaya a ser «un títere» del presidente – Economía

No es la estrategia: es la disciplina con la que ejecutas lo que define tu crecimiento

¿Qué opinas?

Deja una respuestaCancelar la respuesta

Log In

With social network:

Or with username:

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Suscríbete a El Semanal