in

Sorprendentes modelos de IA de Inflection atacan desafíos de uniformidad en RLHF

Un reciente intercambio en X (anteriormente Twitter) entre el profesor de Wharton, Ethan Mollick, y Andrej Karpathy, ex Director de IA en Tesla y co-fundador de OpenAI, ha destacado algo fascinante y fundamental: muchos de los modelos generativos AI más destacados en la actualidad, incluidos los de OpenAI, Anthropic y Google, exhiben una sorprendente similitud en tono, lo que plantea la pregunta: ¿por qué las grandes modelos de lenguaje (LLMs) convergen no solo en habilidad técnica, sino también en personalidad?

El comentario posterior señaló un aspecto común que podría estar impulsando la tendencia de la convergencia de resultados: el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF), una técnica en la cual los modelos de IA se ajustan en función de las evaluaciones proporcionadas por los entrenadores humanos.

Aprovechando esta discusión sobre el papel de RLHF en la similitud de resultados, las recientes anunciaciones de Inflection AI de Inflection 3.0 y una API comercial pueden ofrecer una dirección prometedora para abordar estos desafíos. Han introducido un enfoque novedoso para RLHF, con el objetivo de hacer que los modelos generativos no solo sean consistentes, sino también distintivamente empáticos.

Al ingresar al espacio empresarial, los creadores de la colección de modelos Pi aprovechan RLHF de manera más matizada, desde esfuerzos deliberados para mejorar los modelos de ajuste fino hasta una plataforma propietaria que incorpora la retroalimentación de los empleados para adaptar las salidas de IA generativas a la cultura organizacional. La estrategia tiene como objetivo hacer que los modelos de Inflection AI sean aliados culturales verdaderos en lugar de simples chatbots genéricos, proporcionando a las empresas un sistema de IA más humano y alineado que se destaque entre la multitud.

Inflection AI, el creador del modelo Pi, se está abriendo camino en un enfoque distinto. Con el reciente lanzamiento de Inflection for Enterprise, Inflection AI tiene como objetivo hacer de la inteligencia emocional, llamada «EQ», una característica fundamental para sus clientes empresariales.

La compañía afirma que su enfoque único para RLHF la distingue. En lugar de depender de la etiquetación de datos anónimos, la compañía buscó retroalimentación de 26,000 docentes y profesores universitarios para ayudar en el proceso de ajuste fino a través de una plataforma de retroalimentación propietaria. Además, la plataforma permite a los clientes empresariales ejecutar aprendizaje por refuerzo con retroalimentación de los empleados. Esto permite ajustar posteriormente el modelo a la voz y estilo únicos de la empresa del cliente.

La aproximación de Inflection AI promete que las empresas «poseerán» su inteligencia, lo que significa un modelo local ajustado con datos propietarios que se administran de forma segura en sus propios sistemas. Este es un movimiento notable lejos de los modelos de IA centrados en la nube con los que muchas empresas están familiarizadas, una configuración que Inflection considera que mejorará la seguridad y fomentará una mayor alineación entre las salidas de IA y la forma en que las personas la utilizan en el trabajo.

RLHF se ha convertido en el eje del desarrollo de la IA generativa, en gran medida porque permite a las empresas dar forma a las respuestas para que sean más útiles, coherentes y menos propensas a errores peligrosos. El uso de RLHF por parte de OpenAI fue fundamental para hacer que herramientas como ChatGPT sean atractivas y generalmente confiables para los usuarios. RLHF ayuda a alinear el comportamiento del modelo con las expectativas humanas, haciéndolo más atractivo y reduciendo las salidas no deseadas.

Sin embargo, RLHF no está exento de inconvenientes. RLHF fue rápidamente ofrecido como una razón contribuyente a la convergencia de resultados del modelo, lo que potencialmente lleva a una pérdida de características únicas y hace que los modelos sean cada vez más similares. Aparentemente, la alineación ofrece consistencia, pero también crea un desafío para la diferenciación.

Previo a esto, el propio Karpathy señaló algunas de las limitaciones inherentes a RLHF. Lo comparó con un juego de verificación de sensaciones y enfatizó que no proporciona una «recompensa real» similar a juegos competitivos como AlphaGo. En cambio, RLHF se optimiza para una resonancia emocional que es en última instancia subjetiva y puede no ser adecuada para tareas prácticas o complejas.

Para mitigar algunas de estas limitaciones de RLHF, Inflection AI ha emprendido una estrategia de entrenamiento más matizada. No solo implementando un RLHF mejorado, sino que también ha dado pasos hacia capacidades de IA agentivas, que ha abreviado como AQ (Cociente de Acción). Como White describió en una entrevista reciente, los objetivos empresariales de Inflection AI involucran habilitar a los modelos para no solo comprender y empatizar, sino también para tomar acciones significativas en nombre de los usuarios, que van desde enviar correos electrónicos de seguimiento hasta ayudar en la resolución de problemas en tiempo real.

A pesar de lo innovador de la aproximación de Inflection AI, hay posibles fallos a considerar. Su ventana de contexto de 8K tokens utilizada para inferencias es más pequeña que la que utilizan muchos modelos de alta gama, y el rendimiento de sus modelos más nuevos no ha sido evaluado. A pesar de los ambiciosos planes, los modelos de Inflection AI pueden que no alcancen el nivel de rendimiento deseado en aplicaciones del mundo real.

No obstante, el cambio de EQ a AQ podría marcar una evolución crítica en el desarrollo de la IA generativa, especialmente para clientes empresariales que buscan aprovechar la automatización tanto para tareas cognitivas como operativas. No se trata solo de hablar empáticamente con clientes o empleados; Inflection AI espera que Inflection 3.0 también ejecute tareas que traduzcan la empatía en acciones. La asociación de Inflection con plataformas de automatización como UiPath para proporcionar esta «IA agentiva» refuerza aún más su estrategia para destacarse en un mercado cada vez más concurrido.

Navegando en un mundo post-Suleyman

Inflection AI ha experimentado cambios significativos internos en el último año. La partida del CEO Mustafa Suleyman en la «adquisición por contratación» de Microsoft, junto con una parte sustancial del equipo, generó dudas sobre la trayectoria de la empresa. Sin embargo, el nombramiento de White como CEO y un equipo directivo renovado han marcado un nuevo rumbo para la organización.

Tras un acuerdo de licencia inicial con el gigante tecnológico de Redmond, el desarrollo del modelo de Inflection AI fue bifurcado por las dos empresas. Microsoft continúa construyendo una versión del modelo centrada en la integración con su ecosistema existente. Mientras tanto, Inflection AI continuó evolucionando independientemente de Inflection 2.5 a la versión actual 3.0, distinta de la de Microsoft.

Pi… en realidad bastante popular

El enfoque único de Inflection AI con Pi está ganando tracción más allá del ámbito empresarial, especialmente entre los usuarios en plataformas como Reddit. La comunidad de Pi ha sido elocuente acerca de sus experiencias, compartiendo anécdotas positivas y discusiones sobre las respuestas reflexivas y empáticas de Pi.

Esta popularidad orgánica muestra que Inflection AI podría estar en algo significativo. Al centrarse en la inteligencia emocional y la empatía, Inflection no solo está creando IA que ayuda, sino también IA que conecta con las personas, ya sea en entornos empresariales o como asistentes personales. Este nivel de participación del usuario sugiere que su enfoque en EQ podría ser la clave para distinguirse en un panorama donde otros LLMs corren el riesgo de fusionarse unos con otros.

Próximos pasos para Inflection AI

Mirando hacia adelante, el enfoque de Inflection AI en características posteriores al entrenamiento como Generación Aumentada por Recuperación (RAG) y flujos de trabajo agentivos apunta a mantener su tecnología a la vanguardia de las necesidades empresariales. Inflection AI afirma que el objetivo final es impulsar una era post-GUI, donde la IA no solo responda a comandos, sino que también ayude activamente con integraciones fluidas en varios sistemas comerciales.

Aún está por verse si el enfoque novedoso de Inflection AI mejorará significativamente la similitud de resultados. Sin embargo, si las ideas innovadoras de White y su equipo dan sus frutos, EQ podría surgir como una métrica fundamental para evaluar la efectividad de la tecnología generativa de su empresa.

¿Qué opinas?

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

One Comment

  1. ¡Vaya, este artículo me ha dejado boquiabierto! La inteligencia artificial está avanzando a pasos agigantados en resolver problemas de uniformidad en el Reinforcement Learning with Human Feedback. Es increíble ver cómo la tecnología avanza tan rápido, ¿verdad? Estoy emocionado por ver cómo estos modelos de IA de Inflection pueden revolucionar la forma en que abordamos los desafíos en este campo. ¡Qué tiempos tan emocionantes para estar vivos y presenciar todo esto! 🚀 #IA #Tecnología #Inflection

Trump conversa con Putin tras salir de la presidencia según nuevo libro.

Heidenheim y RB Leipzig se enfrentan en un emocionante duelo de Bundesliga.