La IA domina la realidad física con estos tres métodos

La inteligencia artificial ha demostrado una capacidad extraordinaria para procesar y generar lenguaje, pero choca contra un obstáculo fundamental: su incapacidad para entender cauces y dinámicas del mundo tangible. Esta limitación se hace especialmente palpable en sectores donde la interacción con objetos reales es esencial, como la robótica, la automoción o, de manera creciente, la industria textil y del diseño. Frente a este dilema, una nueva ola de investigaciones está reorientando la atención hacia los denominados modelos mundiales, arquitecturas de IA diseñadas para simular y predecir el comportamiento físico. El fenómeno ha captado inversiones masivas, como los más de 1.000 millones de dólares levantados recientemente por AMI Labs y World Labs, señalando una confianza estratégica en esta tecnología.

El corazón del problema reside en que los grandes modelos de lenguaje (LLM, por sus siglas en inglés) operan esencialmente mediante la predicción de la siguiente palabra en una secuencia, sin anclaje alguno en la causality física. Su conocimiento es abstracto, extraído de textos, pero no experimental. Esta carencia se traduce en una notable fragilidad ante mínimas variaciones en el entorno, un defecto crítico para aplicaciones que requieren fiabilidad en entornos no controlados, como una línea de producción de confección o un probador virtual de prendas. Expertos del sector advierten que, sin una comprensión interna de la mecánica y las propiedades materiales, los sistemas de IA seguirán siendo meros “eruditos de palabras”, incapaces de anticipar cómo caerá un tejido o interactuará con el movimiento corporal.

Ante este escenario, han emergido tres vías arquitectónicas principales, cada una con sus propias fortalezas y aplicaciones potenciales para el ecosistema de la moda.

La primera aproximación, representada por la arquitectura JEPA (Joint Embedding Predictive Architecture), prioriza el aprendizaje de representaciones latentes abstractas en lugar de la predicción pixel a pixel. En lugar de memorizar cada detalle visual, el modelo se centra en extraer las relaciones causales esenciales entre los elementos de una escena. Este proceso, que imita la capacidad humana para ignorar información irrelevante, confiere al sistema una robustez notable frente a cambios superficiales. Su eficiencia computacional lo hace idóneo para aplicaciones en tiempo real, como la simulación interactiva del comportamiento de telas durante el diseño o el control de brazos robóticos en la confección automatizada. Empresas ya colaboran con este paradigma para reducir la complejidad operativa en entornos dinámicos, un principio trasladable a la gestión de inventarios o la optimización de flujos en talleres.

La segunda vía se apoya en técnicas de generación de entornos espaciales completos mediante modelos generativos. A partir de una descripción textual o una imagen, el sistema construye una representación 3Dtrimensional mediante partículas matemáticas llamadas Gaussian splats, que capturan geometría e iluminación. El resultado es un espacio virtual navegable desde cualquier ángulo, exportable directamente a motores de 3D estándar. Para la moda, esta tecnología abre la puerta a la creación instantánea de desfiles inmersivos, showrooms digitales a escala real o probadores virtuales donde el cliente pueda ver cómo queda una prenda en diferentes perspectivas y luces. La firma World Labs, respaldada por gigantes del diseño industrial como Autodesk, sitúa a esta aproximación como clave para dotar a la IA de inteligencia espacial, una carencia señalada por sus impulsores como la de “eruditos en la oscuridad” que dominan las palabras pero no los espacios.

La tercera estrategia opta por un modelo generativo integral que procesa flujos continuos de acciones y prompts, renderizando en tiempo real tanto los escenarios como su dinámica física. A diferencia de los métodos que recurren a motores de física externos, aquí el modelo actúa como un simulador nativo, calculando sobre la marcha colisiones, reflejos y reacciones de objetos. Arquitecturas como Genie 3 de DeepMind o Cosmos de Nvidia permiten generar experiencias interactivas ilimitadas y, sobre todo, sintetizar enormes volúmenes de datos de entrenamiento en condiciones extremas o peligrosas. En el ámbito textil, esto podría traducirse en la generación automatizada de miles de variantes de diseño con respuestas físicas realistas, o en la simulación de escenarios de uso intensivo para probar durabilidad de materiales sin costes de prototipado físico. Compañías del sector ya exploran este camino para acelerar la investigación y el desarrollo de colecciones.

El futuro inmediato apunta hacia arquitecturas híbridas que combinen lo mejor de cada aproximación. Iniciativas como la del startup DeepTempo, que fusiona el razonamiento de los LLM con la eficiencia predictiva de JEPA, muestran el camino. Para la moda, esto podría materializarse en sistemas que integren la creatividad sugerente de un generador de ideas (basado en lenguaje) con la precisión física de un simulador de tejidos. La convergencia de estas corrientes sugiere que el próximo lustro verá una transformación profunda en los procesos creativo-productivos, donde la máquina no solo asistirá en el diseño, sino que comprenderá y anticipará las leyes materiales que gobiernan las prendas, reduciendo tiempos, desperdicios y abriendo horizontes estéticos antes impensables.