La inteligencia artificial de Qwen2-VL de Alibaba analiza videos extensos.

Alibaba Cloud, la división de servicios en la nube y almacenamiento del gigante de comercio electrónico chino, ha lanzado Qwen2-VL, su último modelo avanzado de visión y lenguaje diseñado para mejorar la comprensión visual, el análisis de video y el procesamiento multilingüe de texto e imagen.

Este nuevo modelo ha demostrado un rendimiento impresionante en pruebas de terceros en comparación con otros modelos líderes en el estado del arte, como el Llama 3.1 de Meta, el GPT-4o de OpenAI, el Claude 3 Haiku de Anthropic y el Gemini-1.5 Flash de Google.

Qwen2-VL, disponible en tamaños de 7B y 2B, se destaca por sus capacidades excepcionales para analizar imágenes y videos, incluso ofreciendo soporte técnico en vivo.

Alibaba busca establecer nuevos estándares en la interacción de modelos de IA con datos visuales, como analizar y distinguir entre escrituras en varios idiomas, identificar, describir y diferenciar entre múltiples objetos en imágenes fijas, e incluso analizar videos en tiempo real, brindando resúmenes o retroalimentación que podrían ser útiles en operaciones en vivo.

Este modelo puede analizar videos de más de 20 minutos y responder preguntas sobre su contenido, lo que demuestra su capacidad para comprender visualmente y textualmente información diversa.

Además, Alibaba ha lanzado tres variantes del modelo con diferentes tamaños de parámetros: Qwen2-VL-72B, Qwen2-VL-7B y Qwen2-VL-2B. Las versiones de 7B y 2B están disponibles bajo licencias de código abierto Apache 2.0, lo que las hace accesibles para empresas que buscan un rendimiento competitivo a una escala más manejable.

El equipo de investigación de Qwen destaca la integración del modelo en dispositivos como teléfonos móviles y robots, lo que permite operaciones automatizadas basadas en entornos visuales e instrucciones de texto, mostrando su potencial como herramienta poderosa para tareas que requieren razonamiento y toma de decisiones complejas.

Qwen2-VL también se destaca por su soporte para llamadas de funciones e interpretación visual de información de fuentes externas, lo que le permite facilitar interacciones similares a las percepciones humanas del mundo.

En resumen, Alibaba ha dado un paso significativo en el desarrollo de modelos de visión y lenguaje con el lanzamiento de Qwen2-VL, y continúa trabajando en mejoras arquitectónicas para expandir su utilidad en diversas aplicaciones. Los modelos ya están disponibles para su uso, y se invita a desarrolladores e investigadores a explorar su potencial.

¿Qué opinas?

120 Votos
Upvote Downvote

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Organización Mundial de la Salud: Gaza podrá recibir vacunas contra la polio durante pausas en los combates

Stephen Curry renueva con los Warriors por un año y $62.6 millones.