La startup de robótica 1X Technologies ha presentado un nuevo modelo generativo que puede hacer que sea mucho más eficiente entrenar sistemas de robótica en simulación. Este modelo, anunciado en una nueva publicación en el blog de la empresa, aborda uno de los desafíos importantes de la robótica, que es aprender «modelos del mundo» que puedan predecir cómo cambia el mundo en respuesta a las acciones de un robot.
Dado el costo y los riesgos asociados con entrenar robots directamente en entornos físicos, los roboticistas suelen utilizar entornos simulados para entrenar sus modelos de control antes de desplegarlos en el mundo real. Sin embargo, las diferencias entre la simulación y el entorno físico presentan desafíos.
Para abordar esta brecha, el nuevo modelo de 1X aprende a simular el mundo real siendo entrenado en datos brutos recolectados directamente de los sensores de los robots. Al ver miles de horas de video y datos de actuadores recopilados de los propios robots de la empresa, el modelo puede observar la situación actual del mundo y predecir qué ocurrirá si el robot realiza ciertas acciones.
La información fue recopilada de robots humanoides EVE realizando diversas tareas de manipulación móvil en hogares y oficinas e interactuando con personas. Al aprender un simulador directamente de los datos reales, la dinámica debería coincidir más estrechamente con el mundo real a medida que aumenta la cantidad de datos de interacción.
El modelo del mundo aprendido es especialmente útil para simular interacciones con objetos. Los videos compartidos por la empresa muestran el modelo prediciendo exitosamente secuencias de video donde el robot agarra cajas. También puede predecir «interacciones de objetos no triviales como cuerpos rígidos, efectos de dejar caer objetos, observabilidad parcial, objetos deformables (cortinas, ropa) y objetos articulados (puertas, cajones, cortinas, sillas)», según 1X.
Algunos de los videos muestran el modelo simulando tareas complejas de largo horizonte con objetos deformables como doblar camisas. El modelo también simula la dinámica del entorno, como cómo evitar obstáculos y mantener una distancia segura de las personas.
Los cambios en el entorno seguirán siendo un desafío. Al igual que todos los simuladores, el modelo generativo necesitará actualizarse a medida que cambien los entornos donde opera el robot. Los investigadores creen que la forma en que el modelo aprende a simular el mundo facilitará su actualización.
Una solución es seguir recopilando más datos y entrenando mejores modelos. «Hemos visto un progreso dramático en la modelización generativa de video en los últimos años, y resultados como OpenAI Sora sugieren que escalar datos y cómputo puede llegar muy lejos», dijo Jang.
Al mismo tiempo, 1X está fomentando que la comunidad participe en el esfuerzo al liberar sus modelos y pesos. La empresa también lanzará competiciones para mejorar los modelos con premios monetarios para los ganadores.
«Estamos investigando activamente múltiples métodos para la modelización del mundo y la generación de video», afirmó Jang.
GIPHY App Key not set. Please check settings