Apple apuesta por la comprensión de las intenciones del usuario en el dispositivo con modelos UI-JEPA
La comprensión de las intenciones del usuario basada en las interacciones de la interfaz de usuario (UI) es un desafío crítico para crear aplicaciones de inteligencia artificial intuitivas y útiles.
En un nuevo documento, los investigadores de Apple presentan UI-JEPA, una arquitectura que reduce significativamente los requisitos computacionales de la comprensión de la UI manteniendo un alto rendimiento. UI-JEPA tiene como objetivo permitir una comprensión de la UI ligera y en el dispositivo, allanando el camino para aplicaciones de asistentes de inteligencia artificial más receptivas y que respeten la privacidad. Esto podría encajar en la estrategia más amplia de Apple de mejorar su inteligencia artificial en el dispositivo.
Los desafíos de la comprensión de la UI
Entender las intenciones del usuario a partir de las interacciones de la UI requiere procesar características multimodales cruzadas, incluidas imágenes y lenguaje natural, para capturar las relaciones temporales en las secuencias de la UI.
Por un lado, los avances en Modelos de Lenguaje Multimodal Grande (MLLM), como Anthropic Claude 3.5 Sonnet y OpenAI GPT-4 Turbo, ofrecen opciones para la planificación personalizada al agregar contextos personales como parte del estímulo para mejorar la alineación con los usuarios. Sin embargo, estos modelos requieren recursos computacionales extensos, tamaños de modelo enormes e introducen una alta latencia, lo que los hace poco prácticos para escenarios que requieren soluciones ligeras en el dispositivo con baja latencia y mejorada privacidad.
Por otro lado, los modelos ligeros actuales que pueden analizar la intención del usuario aún son demasiado intensivos desde el punto de vista computacional para ejecutarse eficientemente en los dispositivos de los usuarios.
La arquitectura JEPA
UI-JEPA se inspira en la Arquitectura Predictiva de Incrustación Conjunta (JEPA), un enfoque de aprendizaje auto supervisado presentado por el Jefe Científico de Meta AI, Yann LeCun, en 2022. JEPA tiene como objetivo aprender representaciones semánticas prediciendo regiones enmascaradas en imágenes o videos. En lugar de intentar recrear cada detalle de los datos de entrada, JEPA se centra en aprender características de alto nivel que capturan las partes más importantes de una escena.
JEPA reduce significativamente la dimensionalidad del problema, permitiendo que modelos más pequeños aprendan representaciones ricas. Además, es un algoritmo de aprendizaje auto supervisado, lo que significa que puede entrenarse con grandes cantidades de datos no etiquetados, eliminando la necesidad de una costosa anotación manual. Meta ya ha lanzado I-JEPA y V-JEPA, dos implementaciones del algoritmo diseñadas para imágenes y videos.
UI-JEPA en acción
Los investigadores evaluaron el rendimiento de UI-JEPA en los nuevos conjuntos de datos, comparándolo con otros modelos de codificadores de video y MLLMs privados como GPT-4 Turbo y Claude 3.5 Sonnet.
En ambos conjuntos de datos, UI-JEPA superó a otros modelos de codificadores de video en configuraciones de poca cantidad de datos. También logró un rendimiento comparable a los modelos en la nube mucho más grandes. Sin embargo, con 4.4 mil millones de parámetros, es órdenes de magnitud más ligero que los modelos en la nube. Los investigadores encontraron que la incorporación de texto extraído de la UI mediante reconocimiento óptico de caracteres (OCR) mejoró aún más el rendimiento de UI-JEPA. En configuraciones de ninguna cantidad de datos, UI-JEPA se rezagó detrás de los modelos de vanguardia.
UI-JEPA parece ser una buena opción para Apple Intelligence, que es un conjunto de herramientas de inteligencia artificial generativas y ligeras que tienen como objetivo hacer que los dispositivos de Apple sean más inteligentes y productivos. Dada la preocupación de Apple por la privacidad, el bajo costo y la eficiencia añadida de los modelos UI-JEPA pueden dar a sus asistentes de inteligencia artificial una ventaja sobre otros que dependen de modelos en la nube.
GIPHY App Key not set. Please check settings