Investigadores desarrollan técnica para dotar a los robots de habilidades de «razonamiento encarnado»
Investigadores de la Universidad de California, Berkeley, la Universidad de Varsovia y la Universidad de Stanford han presentado una nueva técnica denominada «Razonamiento Encarnado de Cadena de Pensamiento» (ECoT, por sus siglas en inglés) para modelos de visión-lenguaje-acción (VLA) con el objetivo de mejorar las capacidades de toma de decisiones de los sistemas de control de robots.
El objetivo de las políticas de control robótico es permitir que los robots realicen tareas complejas de forma autónoma. A pesar de los avances en el desarrollo de modelos de control de extremo a extremo, muchas veces fallan ante situaciones novedosas que requieren razonamiento y planificación.
Los modelos de visión-lenguaje-acción (VLA) han surgido como una solución prometedora para crear políticas de control de robots más generales. A pesar de haber alcanzado un rendimiento de vanguardia para políticas generales de robots y demostrar niveles impresionantes de generalización a nuevos objetos y escenas, los VLAs carecen de las capacidades de razonamiento de sus contrapartes de modelos de lenguaje a gran escala (LLM).
Para abordar estos desafíos, los investigadores han desarrollado el razonamiento Encarnado de Cadena de Pensamiento (ECoT) para VLAs. Este enfoque combina el razonamiento semántico sobre tareas y sub-tareas con un razonamiento «encarnado» sobre el entorno y el estado del robot, permitiendo a los robots a razonar sobre sus acciones de una manera fundamentada en su percepción del entorno.
Los resultados de la evaluación de ECoT en un entorno de manipulación robótica mostraron una mejora significativa en el rendimiento de los modelos de VLA estándar, aumentando la tasa de éxito de las tareas en un 28% en comparación con el modelo base. Además, ECoT facilitó la identificación de errores en el proceso de toma de decisiones, lo que permitió una mayor comprensión de por qué el modelo fallaba en ciertas situaciones.
Esta técnica no solo mejora el rendimiento de los robots, sino que también facilita la interacción humana con los mismos, ya que las etapas de razonamiento se expresan en lenguaje natural, lo que posibilita a los humanos corregir el comportamiento del robot de manera más sencilla.
En resumen, el desarrollo de técnicas como ECoT representa un paso significativo en la integración de modelos fundamentales en sistemas de control robótico, lo que podría revolucionar la forma en que los robots interactúan con su entorno y realizan tareas de manera autónoma en el futuro.
GIPHY App Key not set. Please check settings