OpenAI presenta novedoso método de alineación basado en recompensas.

OpenAI revela un nuevo método de alineación llamado Rules Based Rewards

OpenAI ha presentado una innovadora forma de enseñar a los modelos de inteligencia artificial a alinearse con políticas de seguridad llamada Rules Based Rewards (RBR).

Según Lilian Weng, responsable de sistemas de seguridad en OpenAI, Rules Based Rewards automatiza ciertos ajustes de los modelos y reduce el tiempo necesario para garantizar que un modelo no genere resultados no deseados.

En una entrevista, Weng mencionó que tradicionalmente se ha confiado en el aprendizaje por refuerzo a través de retroalimentación humana para entrenar modelos de inteligencia artificial, y que si bien funciona, se enfrentan a desafíos debido a la evolución de las políticas durante el proceso de discusión de los detalles.

El enfoque de aprendizaje por refuerzo a través de retroalimentación humana implica que los humanos solicitan a un modelo que responda y califiquen sus respuestas según su precisión o preferencia. Si un modelo no debe responder de cierta manera, por ejemplo, sonar amigable o negarse a responder a solicitudes «peligrosas», los evaluadores humanos también pueden puntuar sus respuestas para verificar si siguen las políticas establecidas.

Con RBR, OpenAI afirma que los equipos de seguridad y políticas utilizan un modelo de inteligencia artificial que evalúa las respuestas en función de qué tan cerca están de cumplir con un conjunto de reglas creadas por los equipos.

Por ejemplo, el equipo de desarrollo de un aplicación de salud mental desea que el modelo de IA rechace solicitudes inseguras, pero de una manera no juzgadora, y que incluya recordatorios para buscar ayuda si es necesario. Para lograrlo, tendrían que crear tres reglas para que el modelo las siga: primero, rechazar la solicitud; segundo, sonar no juzgador; y tercero, utilizar palabras de aliento para que los usuarios busquen ayuda.

El modelo RBR analiza las respuestas del modelo de salud mental, las relaciona con las tres reglas básicas y determina si cumplen con dichas reglas. Weng afirmó que los resultados de probar modelos con RBR son comparables al aprendizaje por refuerzo liderado por humanos.

Asegurar que los modelos de IA respondan dentro de parámetros específicos es difícil, y cuando los modelos fallan, surge controversia. En febrero, Google mencionó que corrigió en exceso la restricción de generación de imágenes de Gemini después de que el modelo se negara continuamente a generar fotos de personas blancas y creara imágenes no históricas en su lugar.

Reducción de la subjetividad humana

Para muchos, la idea de que los modelos estén a cargo de la seguridad de otro modelo genera preocupaciones. Sin embargo, Weng mencionó que RBR en realidad reduce la subjetividad, un problema al que a menudo se enfrentan los evaluadores humanos.

OpenAI comprende que RBR podría disminuir la supervisión humana y plantea consideraciones éticas que incluyen el aumento potencial de sesgos en el modelo. En una publicación de blog, la compañía mencionó que los investigadores «deberían diseñar cuidadosamente los RBR para garantizar la imparcialidad y precisión, y considerar el uso de una combinación de RBR y retroalimentación humana».

RBR puede tener dificultades con tareas diseñadas para ser subjetivas, como la escritura o cualquier cosa creativa.

OpenAI comenzó a explorar métodos de RBR mientras desarrollaba GPT-4, aunque Weng afirmó que RBR ha evolucionado significativamente desde entonces.

OpenAI ha sido cuestionada por su compromiso con la seguridad. En marzo, Jan Leike, un ex investigador y líder del equipo de Super alineación de la compañía, criticó a la compañía al publicar que «la cultura y los procesos de seguridad han pasado a un segundo plano frente a productos llamativos». El cofundador y científico jefe Ilya Sutskever, quien lideró el equipo de Super alineación junto a Leike, también renunció a OpenAI. Sutskever ha iniciado una nueva compañía centrada en sistemas de IA seguros.

Al suscribirte, estarás al tanto de las últimas noticias en tu bandeja de entrada. ¡Gracias por confiar en El Semanal para mantenerte informado!

¿Qué opinas?

120 Votos
Upvote Downvote

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

El equipo femenino del Man United es una prioridad para los nuevos propietarios

Trump denuncia que Harris se apropia de fondos de campaña de Biden.