OpenAI presenta novedoso método de alineación basado en recompensas.

OpenAI revela un nuevo método de alineación llamado Rules Based Rewards

OpenAI ha presentado una innovadora forma de enseñar a los modelos de inteligencia artificial a alinearse con políticas de seguridad llamada Rules Based Rewards (RBR).

Según Lilian Weng, responsable de sistemas de seguridad en OpenAI, Rules Based Rewards automatiza ciertos ajustes de los modelos y reduce el tiempo necesario para garantizar que un modelo no genere resultados no deseados.

En una entrevista, Weng mencionó que tradicionalmente se ha confiado en el aprendizaje por refuerzo a través de retroalimentación humana para entrenar modelos de inteligencia artificial, y que si bien funciona, se enfrentan a desafíos debido a la evolución de las políticas durante el proceso de discusión de los detalles.

El enfoque de aprendizaje por refuerzo a través de retroalimentación humana implica que los humanos solicitan a un modelo que responda y califiquen sus respuestas según su precisión o preferencia. Si un modelo no debe responder de cierta manera, por ejemplo, sonar amigable o negarse a responder a solicitudes «peligrosas», los evaluadores humanos también pueden puntuar sus respuestas para verificar si siguen las políticas establecidas.

Con RBR, OpenAI afirma que los equipos de seguridad y políticas utilizan un modelo de inteligencia artificial que evalúa las respuestas en función de qué tan cerca están de cumplir con un conjunto de reglas creadas por los equipos.

Por ejemplo, el equipo de desarrollo de un aplicación de salud mental desea que el modelo de IA rechace solicitudes inseguras, pero de una manera no juzgadora, y que incluya recordatorios para buscar ayuda si es necesario. Para lograrlo, tendrían que crear tres reglas para que el modelo las siga: primero, rechazar la solicitud; segundo, sonar no juzgador; y tercero, utilizar palabras de aliento para que los usuarios busquen ayuda.

El modelo RBR analiza las respuestas del modelo de salud mental, las relaciona con las tres reglas básicas y determina si cumplen con dichas reglas. Weng afirmó que los resultados de probar modelos con RBR son comparables al aprendizaje por refuerzo liderado por humanos.

Asegurar que los modelos de IA respondan dentro de parámetros específicos es difícil, y cuando los modelos fallan, surge controversia. En febrero, Google mencionó que corrigió en exceso la restricción de generación de imágenes de Gemini después de que el modelo se negara continuamente a generar fotos de personas blancas y creara imágenes no históricas en su lugar.

Reducción de la subjetividad humana

Para muchos, la idea de que los modelos estén a cargo de la seguridad de otro modelo genera preocupaciones. Sin embargo, Weng mencionó que RBR en realidad reduce la subjetividad, un problema al que a menudo se enfrentan los evaluadores humanos.

OpenAI comprende que RBR podría disminuir la supervisión humana y plantea consideraciones éticas que incluyen el aumento potencial de sesgos en el modelo. En una publicación de blog, la compañía mencionó que los investigadores «deberían diseñar cuidadosamente los RBR para garantizar la imparcialidad y precisión, y considerar el uso de una combinación de RBR y retroalimentación humana».

RBR puede tener dificultades con tareas diseñadas para ser subjetivas, como la escritura o cualquier cosa creativa.

OpenAI comenzó a explorar métodos de RBR mientras desarrollaba GPT-4, aunque Weng afirmó que RBR ha evolucionado significativamente desde entonces.

OpenAI ha sido cuestionada por su compromiso con la seguridad. En marzo, Jan Leike, un ex investigador y líder del equipo de Super alineación de la compañía, criticó a la compañía al publicar que «la cultura y los procesos de seguridad han pasado a un segundo plano frente a productos llamativos». El cofundador y científico jefe Ilya Sutskever, quien lideró el equipo de Super alineación junto a Leike, también renunció a OpenAI. Sutskever ha iniciado una nueva compañía centrada en sistemas de IA seguros.

Al suscribirte, estarás al tanto de las últimas noticias en tu bandeja de entrada. ¡Gracias por confiar en El Semanal para mantenerte informado!

OpenAI presenta novedoso método de alineación basado en recompensas.

¿Qué opinas?

Escrito por Redacción - El Semanal

Deja una respuestaCancelar la respuesta

Ampliación del servicio de Comunicaciones en Rico con iPhone, llega a más operadoras con la versión beta 3 de iOS 18.

Donald Trump considera eliminar impuestos en entrevista con Joe Rogan.

El fracaso de mi retiro revela el verdadero significado del éxito

El flamante rascacielos de Dubai prioriza la vida saludable desde su construcción.

Alcanza el éxito en tu negocio conectando con emprendedores en Alignable

Tres médicos polacos enfrentan condena por muerte de mujer embarazada en 2021

El equipo femenino del Man United es una prioridad para los nuevos propietarios

Trump denuncia que Harris se apropia de fondos de campaña de Biden.

Alcanza el éxito en tu negocio conectando con emprendedores en Alignable

Tres médicos polacos enfrentan condena por muerte de mujer embarazada en 2021

Reino Unido sanciona a espías rusos por ataques en Mariupol y envenenamiento de agente

EEUU bombardea Irán mientras emerge un nuevo orden jurídico internacional

Nueva app de Justworks optimiza la gestión del tiempo para emprendedores

¿Qué opinas?

Deja una respuestaCancelar la respuesta

Log In

With social network:

Or with username:

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Suscríbete a El Semanal