in

NVIDIA AI optimiza la precisión agentiva con PivotRL reduciendo iteraciones.

NVIDIA desarrolla un framework de IA que revoluciona la eficiencia en tareas complejas, con aplicaciones potenciales en la industria de la moda

En un entorno tecnológico cada vez más competitivo, la optimización de recursos computacionales se ha convertido en un factor crítico para el desarrollo de sistemas de inteligencia artificial avanzados. Un reciente avance presentado por investigadores de NVIDIA promete alterar significativamente la ecuación entre coste y rendimiento en el entrenamiento de modelos para tareas de largo recorrido, como la ejecución de múltiples pasos secuenciales. Esta innovación, denominada PivotRL, no solo mejora la eficiencia del proceso格式entrenamiento, sino que también preserva la capacidad del modelo para generalizar a situaciones no vistas, una característica esencial para aplicaciones en sectores dinámicos como el de la moda.

El núcleo del desafío técnico reside en la tensión existente entre dos metodologías predominantes. Por un lado, el Ajuste Fino Supervisado (SFT) es un método veloz y con bajo coste computacional, pero tiende a perder efectividad cuando el modelo se enfrenta a escenarios que difieren de los datos de entrenamiento, un fenómeno conocido como degradación out-of-domain. Por el otro, el Aprendizaje por Refuerzo End-to-End (E2E RL) mantiene una robustez mayor ante nuevas situaciones, pero exige un gasto astronómico de recursos debido a la necesidad de simular miles de interacciones completas (o «vueltas») para cada ajuste de parámetros. PivotRL logra un equilibrio notable: consigue la generalización del E2E RL con la eficiencia de datos del SFT, reduciendo drásticamente el número de interacciones necesarias.

La arquitectura de PivotRL se sustenta en dos pilares fundamentales que redefinen el punto de partida del entrenamiento. En lugar de considerar una trayectoria completa de acciones (toda una conversación o secuencia de comandos), el sistema focaliza sus actualizaciones en giros críticos o «pivotes». Estos son pasos intermedios específicos donde el modelo demuestra incertidumbre, es decir, donde las diferentes opciones de acción conducen a resultados muy diversos (éxitos y fracasos mezclados). Identificar y filtrar estos momentos de alta varianza permite concentrar el poder de cómputo en los puntos que ofrecen la señal de aprendizaje más rica, abandonando los pasos en los que el rendimiento es uniformemente bueno o malo, que aportan poca información.

El segundo mecanismo clave es la implementación de recompensas funcionales. Los sistemas tradicionales exigen una coincidencia exacta de texto entre la acción generada por el modelo y la existente en los datos de ejemplo, lo cual es inviable en espacios de acción generativos. En el contexto de la moda, esto podría compararse a exigir que un diseño de vestido sea idéntico a un patrón de referencia, ignorando variaciones creativas pero funcionalmente equivalentes. PivotRL supera esta limitación utilizando un verificador específico del dominio —que puede ir desde comprobaciones de esquema normalizado hasta evaluaciones semánticas mediante un modelo de lenguaje— que otorga recompensa a cualquier acción que cumpla el objetivo subyacente, aunque su expresión concreta difiera. Esto fomenta la exploración de soluciones válidas y diversificadas, crucial para la innovación en diseño.

Desde una perspectiva teórica, el diseño de PivotRL está sólidamente fundamentado. Primero, se demuestra que la magnitud de la señal de gradiente útil en algoritmos como el Relative Policy Optimization (RPO) escala directamente con la desviación típica de las recompensas en un estado dado, validando la estrategia de centrarse en los «pivotes» de alta varianza. Segundo, y quizás más relevante para aplicaciones prácticas, el uso de recompensas funcionales garantiza que el modelo no olvide conocimientos previos no relacionados con la nueva tarea. Esto se conoce como estabilidad out-of-domain. Al recompensar únicamente las acciones funcionalmente correctas sin alterar el orden relativo de probabilidad para acciones fuera del dominio de entrenamiento, el modelo conserva sus capacidades generales, como el razonamiento matemático o el conocimiento Cultural, evitando el «olvido catastrófico».

Los resultados empíricos, obtenidos sobre el modelo base Qwen3-30B-A3B, son contundentes. En cuatro dominios agénticos —uso de herramientas conversacionales, ingeniería de software, control de terminal y navegación web—, PivotRL superó consistentemente al SFT en rendimiento dentro del dominio, con una ganancia promedio de más de 14 puntos sobre el modelo base, frente a los 10 del SFT. La ventaja más trascendental, sin embargo, se observa en la estabilidad fuera del dominio. Mientras el SFT provocó una regresión promedio de casi 10 puntos en ocho benchmarks no agénticos (que evalúan razonamiento matemático, científico, etc.), PivotRL mantuvo un cambio cercano a cero e incluso mejoró su precisión en estas tareas ajenas en más de un 10%. Esto significa que un modelo entrenado con este framework para, por ejemplo, gestionar consultas de clientes en una web de moda, no sacrificaría su capacidad para analizar tendencias históricas o realizar cálculos de costes de materiales.

En términos de eficiencia computacional, la mejora es disruptiva. En la plataforma de referencia SWE-Bench Verified, que evalúa la resolución de problemas de software a largo plazo, PivotRL alcanzó niveles de precisión comparables a los del E2E RL utilizando cuatro veces menos interacciones de entrenamiento. Traducido a tiempo real, esto supone una aceleración de aproximadamente 5.5 veces en el tiempo de entrenamiento total, usando los mismos nodos de cálculo. Este ahorro coloca tecnologías de agente avanzadas al alcance de empresas que no cuentan con el gigantesco presupuesto de cómputo de los grandes laboratorios.

Para la industria de la moda, cuyos procesos —desde el diseño generativo y la personalización masiva hasta la optimización de cadenas de suministro complejas— se parecen cada vez más a tareas agénticas de largo recorrido, este avance es de gran relevancia. La posibilidad de entrenar modelos de IA que ejecuten flujos de trabajo multi-paso (como crear una colección completa, gestionar pedidos y envíos, o interactuar con clientes de forma contextual) con una fracción del coste y sin perder sus competencias generales, abre la puerta a una democratización de la automatización inteligente. PivotRL sugiere un camino para construir asistentes de diseño, planificadores de producción o stylists virtuales más robustos, eficientes y capaces de innovar sin perder el norte de la experiencia general de la marca.

En síntesis, PivotRL representa un cambio de paradigma en el entrenamiento de modelos para tareas secuenciales complejas. Su combinación de filtrado selectivo de momentos críticos y evaluación por función en lugar de por forma exacta resuelve el dilema clásico entre eficiencia y generalización. Para un sector como el de la moda, que busca integrar la inteligencia artificial de manera profunda y sostenible, esta tecnología podría ser el catalizador que permita desplegar agentes autónomos más capaces, con menos recursos y, lo que es fundamental, sin sacrificar la versatilidad y el conocimiento general que toda marca cultiva a lo largo del tiempo. La investigación, disponible en repositorios académicos, marca un hito en la ingeniería de reinforcement learning y señala un futuro donde la IA aplicada a negocios creativos y logísticos será más inteligente y, sobre todo, más asequible.

¿Qué opinas?

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Alan Ritchson y Catherine: Incómodo encuentro en ballet deriva en matrimonio duradero

Martin Hoffmann dimite como CEO de On Running