in

Ai2 lanza MolmoWeb, agente visual web con 30.000 trayectorias humanas y entrenamiento completo.

La irrupción de agentes de inteligencia artificial capaces de navegar por entornos web de forma autónoma está destinada a transformar sectores como el retail de moda, donde la monitorización de tendencias, la gestión de inventario online y la experiencia del consumidor dependen cada vez más de la automatización inteligente. Hasta ahora, las empresas han debido decantarse entre soluciones cerradas ofrecidas por gigantes tecnológicos o frameworks abiertos que exigen un desarrollo considerable. Un nuevo lanzamiento del Instituto Allen para la Inteligencia Artificial (Ai2) promete cambiar esta ecuación con MolmoWeb, un agente visual de código abierto que por primera vez incluye tanto los pesos del modelo como una completa pila de entrenamiento y datos auditables.

A diferencia de los sistemas que interpretan el código subyacente de las páginas, MolmoWeb opera exclusivamente a partir de capturas de pantalla, imitando la interacción de un humano frente al navegador. Esta aproximación resulta especialmente valiosa para plataformas de moda y e-commerce, donde el diseño visual, la disposición de elementos y las imágenes son determinantes. El modelo, disponible en versiones de 4.000 y 8.000 millones de parámetros, recibe en cada paso la instrucción de tarea, la imagen actual, un registro de acciones previas y los metadatos de la URL, para generar un razonamiento en lenguaje natural y ejecutar acciones como clics en coordenadas específicas, escritura de texto o desplazamiento.

El verdadero diferenciador de MolmoWeb reside en su conjunto de datos de entrenamiento, MolmoWebMix, que contiene la mayor colección pública de trayectorias humanas de ejecución de tareas web jamás compilada. Este dataset integra tres fuentes complementarias. En primer lugar, 30.000 trayectorias completas capturadas por anotadores humanos que utilizaron una extensión personalizada de Chrome en más de 1.100 sitios web distintos, sumando 590.000 demostraciones de subtareas. En segundo lugar, trayectorias sintéticas generadas por sistemas basados únicamente en árboles de accesibilidad (sin agentes visuales propietarios), que permitieron escalar la cobertura a cientos de dominios. Finalmente, más de 2,2 millones de pares de preguntas y respuestas derivadas de capturas de pantalla, diseñados para entrenar la percepción y el razonamiento sobre interfaces gráficas.

Esta arquitectura posiciona a MolmoWeb como una alternativa robusta dentro de la categoría de modelos de peso abierto, en contraste con los sistemas que solo ofrecen API cerradas, como las de OpenAI o Anthropic, o con marcos como Browser-use que requieren que el desarrollador proporcione y ajuste el modelo base. Según evaluaciones independientes, el modelo de Ai2 supera a otros agentes abiertos en benchmarks como WebVoyager y DeepShop, y además muestra superioridad frente a agentes API-based antiguos que combinaban accesibilidad y captura de pantalla.

Para las empresas de moda, las ventajas de contar con un modelo abierto y auditble son sustanciales. Permite examinar el proceso de toma de decisiones, adaptarlo mediante fine-tuning a flujos de trabajo internos —como la extracción de precios de competidores o el seguimiento de lanzamientos de colecciones— y eliminar la dependencia de costes por uso de API. No obstante, el reconocimiento de texto en imágenes aún presenta errores ocasionales, las interacciones de arrastre no son plenamente fiables y el rendimiento decae con instrucciones ambiguas. Cabe destacar que MolmoWeb no fue entrenado en navegación tras pantallas de login ni en transacciones financieras, límites que deberán tenerse en cuenta para su aplicación en entornos de retail seguros.

En un sector donde la agilidad y la personalización son clave, la posibilidad de implementar agentes web propios, comprensibles y tuneables abre un camino para innovaciones en análisis de mercado, servicio al cliente automatizado y optimización de presence digital. MolmoWeb no es solo otro modelo de lenguaje; es una herramienta práctica que traslada la comprensión visual a la acción en el navegador, un paso crítico para que la IA abandone el Laboratorio y entre en las operaciones diarias de la industria de la moda.

¿Qué opinas?

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Mel Schilling muere a los 54 por cáncer de colon con metástasis cerebral.

Meta asigna a Bosworth la supervisión de su IA interna