in

El innovador sistema de DeepMind demuestra la capacidad de las superinteligencias para aprender de sus errores.

Google DeepMind ha presentado una nueva técnica llamada Self-Correction via Reinforcement Learning (SCoRe) que promete mejorar significativamente la capacidad de autocorrección de los modelos de lenguaje de gran escala (LLMs). Esta técnica se basa en el uso de datos generados por el propio modelo para mejorar sus respuestas, sin necesidad de retroalimentación externa.

Los LLMs han demostrado ser eficaces en tareas complejas, pero a menudo fallan en la primera respuesta correcta. Por ello, la autocorrección se vuelve fundamental para mejorar su desempeño. Hasta ahora, los intentos de autocorrección se han basado en el diseño de las preguntas o en el ajuste específico de los modelos, lo que limita su efectividad en situaciones del mundo real.

SCoRe busca superar estas limitaciones mediante el uso de aprendizaje por refuerzo. Este enfoque entrena a un solo modelo para que genere respuestas y corrija sus propios errores, sin depender de retroalimentación externa. Además, SCoRe se centra en evitar que el modelo se enfoque solo en la respuesta final, ignorando los pasos intermedios necesarios para la autocorrección.

Los investigadores de DeepMind han evaluado SCoRe en tareas de matemáticas y programación, logrando mejoras significativas en la capacidad de autocorrección de los modelos Gemini 1.0 Pro y 1.5 Flash. Por ejemplo, en el benchmark MATH, SCoRe logró un aumento absoluto del 15,6% en autocorrección, superando a otros métodos existentes.

Uno de los aspectos más destacados de SCoRe es su capacidad para reducir los casos en los que el modelo cambia incorrectamente una respuesta correcta a una incorrecta durante el proceso de autocorrección, lo que indica que aprendió a aplicar correcciones solo cuando eran necesarias.

Además, SCoRe se ha mostrado altamente eficiente cuando se combina con estrategias de escalado en tiempo de inferencia, como la autoconsistencia. Al asignar el mismo presupuesto de inferencia a través de múltiples rondas de corrección, SCoRe habilita mayores mejoras de rendimiento.

Si bien el estudio se centra principalmente en tareas de codificación y razonamiento, los investigadores creen que SCoRe puede ser beneficioso para otras aplicaciones. Esta técnica no solo mejora el desempeño de los LLMs, sino que también destaca la importancia de enseñar a los modelos a razonar y corregirse a sí mismos, en lugar de simplemente mapear entradas a salidas.

En resumen, SCoRe representa un avance significativo en la capacidad de autocorrección de los modelos de lenguaje, abriendo nuevas posibilidades para mejorar su robustez y confiabilidad en diversas aplicaciones.

¿Qué opinas?

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Amazon retira memorias de Kim Porter sobre Sean ‘Diddy’ Combs.

El aumento de sótanos en Brampton genera tensiones y malestar entre los vecinos – Toronto