El innovador sistema de DeepMind demuestra la capacidad de las superinteligencias para aprender de sus errores.

Google DeepMind ha presentado una nueva técnica llamada Self-Correction via Reinforcement Learning (SCoRe) que promete mejorar significativamente la capacidad de autocorrección de los modelos de lenguaje de gran escala (LLMs). Esta técnica se basa en el uso de datos generados por el propio modelo para mejorar sus respuestas, sin necesidad de retroalimentación externa.

Los LLMs han demostrado ser eficaces en tareas complejas, pero a menudo fallan en la primera respuesta correcta. Por ello, la autocorrección se vuelve fundamental para mejorar su desempeño. Hasta ahora, los intentos de autocorrección se han basado en el diseño de las preguntas o en el ajuste específico de los modelos, lo que limita su efectividad en situaciones del mundo real.

SCoRe busca superar estas limitaciones mediante el uso de aprendizaje por refuerzo. Este enfoque entrena a un solo modelo para que genere respuestas y corrija sus propios errores, sin depender de retroalimentación externa. Además, SCoRe se centra en evitar que el modelo se enfoque solo en la respuesta final, ignorando los pasos intermedios necesarios para la autocorrección.

Los investigadores de DeepMind han evaluado SCoRe en tareas de matemáticas y programación, logrando mejoras significativas en la capacidad de autocorrección de los modelos Gemini 1.0 Pro y 1.5 Flash. Por ejemplo, en el benchmark MATH, SCoRe logró un aumento absoluto del 15,6% en autocorrección, superando a otros métodos existentes.

Uno de los aspectos más destacados de SCoRe es su capacidad para reducir los casos en los que el modelo cambia incorrectamente una respuesta correcta a una incorrecta durante el proceso de autocorrección, lo que indica que aprendió a aplicar correcciones solo cuando eran necesarias.

Además, SCoRe se ha mostrado altamente eficiente cuando se combina con estrategias de escalado en tiempo de inferencia, como la autoconsistencia. Al asignar el mismo presupuesto de inferencia a través de múltiples rondas de corrección, SCoRe habilita mayores mejoras de rendimiento.

Si bien el estudio se centra principalmente en tareas de codificación y razonamiento, los investigadores creen que SCoRe puede ser beneficioso para otras aplicaciones. Esta técnica no solo mejora el desempeño de los LLMs, sino que también destaca la importancia de enseñar a los modelos a razonar y corregirse a sí mismos, en lugar de simplemente mapear entradas a salidas.

En resumen, SCoRe representa un avance significativo en la capacidad de autocorrección de los modelos de lenguaje, abriendo nuevas posibilidades para mejorar su robustez y confiabilidad en diversas aplicaciones.

El innovador sistema de DeepMind demuestra la capacidad de las superinteligencias para aprender de sus errores.

¿Qué opinas?

Escrito por Redacción - El Semanal

Deja una respuestaCancelar la respuesta

Trabajos en plataformas digitales que generan ingresos sin licencia de conducir

Los 10 mejores cursos digitales para formar equipos competitivos

Ampliación del servicio de Comunicaciones en Rico con iPhone, llega a más operadoras con la versión beta 3 de iOS 18.

Dos fuertes sismos en el Pacífico ruso activan alerta por tsunami

El flamante rascacielos de Dubai prioriza la vida saludable desde su construcción.

Tone de Kai Cenat y AMP lanza su línea en Target ahora

Apple desarrolla sistema innovador para organizar redes Wi-Fi en sus dispositivos.

Las aerolíneas modernizan sus clases ejecutivas para ofrecer mayor lujo.

Amazon retira memorias de Kim Porter sobre Sean ‘Diddy’ Combs.

El aumento de sótanos en Brampton genera tensiones y malestar entre los vecinos – Toronto

Israel anuncia una nueva ofensiva para recuperar el control de Gaza

Carney prioriza el crecimiento de Canadá mientras avanza el diálogo con Estados Unidos

La inteligencia artificial desplaza a los actores de doblaje en la industria india

Los aranceles estadounidenses alcanzan su nivel más alto en un siglo

Carney y grupos métis analizan proyecto de ley clave para obras nacionales

¿Qué opinas?

Deja una respuestaCancelar la respuesta

Log In

With social network:

Or with username:

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Suscríbete a El Semanal