in

Microsoft optimiza el entrenamiento de IA suprimiendo instrucciones excesivas sin mermar rendimiento

En un movimiento que podría transformar la aplicación de inteligencia artificial en la industria de la moda, investigadores de Microsoft han presentado una nueva técnica de entrenamiento que elimina la necesidad de prompts de sistema extensos sin comprometer el rendimiento del modelo. Este avance, conocido como On-Policy Context Distillation (OPCD), aborda uno de los mayores obstáculos para la adopción de IA a escala empresarial: la latencia y el costo asociados a la gestión de instrucciones complejas en tiempo real.

Durante años, las empresas de moda han utilizado modelos de lenguaje para automatizar servicios como atención al cliente virtual, recomendaciones de productos o redacción de descripciones. Para alinear estas herramientas con sus valores —desde la autenticidad de los materiales hasta el tono de comunicación—, es común incluir guías detalladas en el prompt inicial. Sin embargo, cada interacción debe repetir estas instrucciones, lo que infla los datos procesados y ralentiza las respuestas. «Los prompts largos aumentan significativamente la sobrecarga computacional y la latencia», explica Tianzhu Ye, investigador de Microsoft Research Asia y coautor del estudio publicado en arXiv.

La destilación de contexto, concepto subyacente, busca internalizar ese conocimiento en los parámetros del modelo. A diferencia del ajuste fino tradicional, no modifica la arquitectura base, sino que entrena al modelo para que «recuerde» las reglas sin necesidad de externalizarlas. No obstante, las técnicas anteriores, denominadas «off-policy», presentaban fallos críticos: el modelo estudiante se entrenaba con respuestas pregeneradas por un profesor que sí accedía al prompt completo. Este desfase generaba un sesgo de exposición; al enfrentarse a consultas reales, el estudiante cometía errores al no haber practicado la generación autónoma. Además, el uso de divergencia KL estándar incentivaba respuestas demasiado amplias, propensas a alucinaciones.

OPCD revoluciona este paradigma al hacer que el estudiante aprenda de sus propias generaciones durante el entrenamiento. El profesor, con acceso al prompt completo, evalúa cada token emitido por el estudiante y proporciona retroalimentación en tiempo real. Este enfoque «on-policy» asegura que el modelo practique la toma de decisiones en condiciones similares a las de producción, reduciendo la brecha de dominio. La clave está en minimizar la divergencia KL inversa, que penaliza las elecciones de baja probabilidad del estudiante, forzándolo a enfocarse en alternativas viables y congruentemente con el conocimiento del profesor.

Los resultados experimentales son elocuentes. En tareas de razonamiento matemático, un modelo de 8.000 millones de parámetros mejoró su precisión del 75% al 80,9% tras internalizar reglas procedimentales. En un escenario de navegación Frozen Lake, un modelo pequeño (1.700 millones) saltó de un magro 6,3% a un sólido 38,3%. Aún más relevante para la moda, en clasificación de seguridad y toxicidad —crítica para plataformas de comercio electrónico—, un modelo Llama de 3.000 millones pasó de 30,7% a 83,1% de acierto. En respuesta médica, un dominio donde la precisión es vital, la puntuación subió de 59,4% a 76,3%.

Importante destacar que OPCD preserva las capacidades generales del modelo. Al destilar reglas estrictas de seguridad, se evaluó su desempeño en preguntas médicas no relacionadas, superando en 4 puntos a métodos off-policy. Esto evita el «olvido catastrófico», donde el modelo se especializa demasiado y pierde versatilidad.

¿Es OPCD una solución universal? No. Cuando la información es altamente dinámica —como precios o inventarios—, sistemas como RAG (Retrieval-Augmented Generation), que consultan bases de datos externas en cada consulta, siguen siendo superiores. OPCD brilla cuando el conocimiento es estático y normativo: filosofía de marca, protocolos de calidad, códigos de conducta.

La implementación es sorprendentemente accesible. Los investigadores utilizaron el codebase abierto verl, compatible con flujos de trabajo estándar de aprendizaje por refuerzo. No se requieren cambios arquitectónicos masivos; con alrededor de ocho GPUs A100 y un conjunto de datos modesto —unos 30 ejemplos para destilación experiencial—, las empresas pueden replicar los experimentos. Esto reduce la barrera de entrada para pymes del sector moda.

Mirando hacia adelante, OPCD sienta las bases para modelos que se mejoran de forma autónoma a través del uso. «El núcleo de la mejora del modelo se desplazaría del tiempo de entrenamiento al tiempo de prueba», reflexiona Ye. En la moda, esto podría traducirse en asistentes que aprenden de cada interacción con clientes, refinando su comprensión de tendencias y preferencias sin intervención humana.

En síntesis, esta técnica ofrece una vía para que las marcas de moda desplieguen IA especializada, eficiente y confiable, liberándolas de la tiranía de los prompts kilométricos. A medida que la industria abraza la digitalización, herramientas como OPCD podrían ser el puente entre la creatividad humana y la escalabilidad algorítmica, impulsando una nueva era de moda inteligente.

¿Qué opinas?

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Michelle Mao interpreta villana en ‘Bridgerton’ temporada 4 y filme de Kogonada

Rosalía es la imagen de la nueva campaña de zapatillas New Balance 204L