Investigadores de la Imperial College London y Google DeepMind han presentado un nuevo enfoque llamado Difusión de Agentes Aumentada (DAAG), que tiene como objetivo mejorar la eficiencia de aprendizaje y transferencia de agentes incorporados. Este marco innovador combina modelos de lenguaje grandes (LLMs), modelos de lenguaje visual (VLMs) y modelos de difusión para potenciar las capacidades de aprendizaje de los agentes incorporados.
La eficiencia de los datos es fundamental para los agentes incorporados, ya que, a diferencia de los LLMs y VLMs que pueden ser entrenados con grandes conjuntos de datos textuales e imágenes de internet, estos agentes necesitan interactuar con el mundo físico para aprender. Sin embargo, la recolección de datos en entornos físicos presenta desafíos debido a la complejidad y la imprevisibilidad del mundo real, así como a la naturaleza lenta y propensa a fallos de los sensores y actuadores físicos utilizados por los robots y sistemas de IA incorporados.
DAAG opera en el contexto de un Proceso de Decisión de Markov (MDP), donde el agente recibe instrucciones para una tarea al comienzo de cada episodio. Observa el estado del entorno, toma acciones y trata de alcanzar un estado que se alinee con la tarea descrita. Este marco incluye dos buffers de memoria: uno específico de la tarea actual y otro «lifelong» que almacena todas las experiencias pasadas independientemente de las tareas para las que se recopilaron.
La combinación de LLMs, VLMs y modelos de difusión en DAAG permite a los agentes razonar sobre las tareas, analizar su entorno y reutilizar sus experiencias pasadas para aprender nuevos objetivos de manera más eficiente. Además, DAAG utiliza una técnica llamada Aumento de Experiencia con Retrospectiva (HEA) para aumentar la cantidad de episodios exitosos almacenados en los buffers del agente y mejorar la eficiencia de aprendizaje, especialmente al enfrentar múltiples tareas en sucesión.
La evaluación de DAAG en varios benchmarks y entornos simulados demostró mejoras significativas sobre los sistemas de aprendizaje por refuerzo convencionales. Los agentes entrenados con DAAG lograron aprender a alcanzar objetivos incluso sin recibir recompensas explícitas, llegando a sus metas más rápidamente y con menos interacción con el entorno. Además, la capacidad de transferir conocimientos entre tareas es fundamental para desarrollar agentes capaces de aprender de manera continua y adaptarse a nuevas situaciones.
En resumen, el enfoque DAAG y la técnica HEA representan un avance importante en la superación de la escasez de datos en el aprendizaje de robots y en el desarrollo de agentes más capaces y adaptables. Este trabajo abre nuevas perspectivas para lograr agentes robóticos más robustos y versátiles, capaces de aprender eficazmente en diferentes escenarios y situaciones.
GIPHY App Key not set. Please check settings