La inteligencia artificial de Qwen2-VL de Alibaba analiza videos extensos.

Alibaba Cloud, la división de servicios en la nube y almacenamiento del gigante de comercio electrónico chino, ha lanzado Qwen2-VL, su último modelo avanzado de visión y lenguaje diseñado para mejorar la comprensión visual, el análisis de video y el procesamiento multilingüe de texto e imagen.

Este nuevo modelo ha demostrado un rendimiento impresionante en pruebas de terceros en comparación con otros modelos líderes en el estado del arte, como el Llama 3.1 de Meta, el GPT-4o de OpenAI, el Claude 3 Haiku de Anthropic y el Gemini-1.5 Flash de Google.

Qwen2-VL, disponible en tamaños de 7B y 2B, se destaca por sus capacidades excepcionales para analizar imágenes y videos, incluso ofreciendo soporte técnico en vivo.

Alibaba busca establecer nuevos estándares en la interacción de modelos de IA con datos visuales, como analizar y distinguir entre escrituras en varios idiomas, identificar, describir y diferenciar entre múltiples objetos en imágenes fijas, e incluso analizar videos en tiempo real, brindando resúmenes o retroalimentación que podrían ser útiles en operaciones en vivo.

Este modelo puede analizar videos de más de 20 minutos y responder preguntas sobre su contenido, lo que demuestra su capacidad para comprender visualmente y textualmente información diversa.

Además, Alibaba ha lanzado tres variantes del modelo con diferentes tamaños de parámetros: Qwen2-VL-72B, Qwen2-VL-7B y Qwen2-VL-2B. Las versiones de 7B y 2B están disponibles bajo licencias de código abierto Apache 2.0, lo que las hace accesibles para empresas que buscan un rendimiento competitivo a una escala más manejable.

El equipo de investigación de Qwen destaca la integración del modelo en dispositivos como teléfonos móviles y robots, lo que permite operaciones automatizadas basadas en entornos visuales e instrucciones de texto, mostrando su potencial como herramienta poderosa para tareas que requieren razonamiento y toma de decisiones complejas.

Qwen2-VL también se destaca por su soporte para llamadas de funciones e interpretación visual de información de fuentes externas, lo que le permite facilitar interacciones similares a las percepciones humanas del mundo.

En resumen, Alibaba ha dado un paso significativo en el desarrollo de modelos de visión y lenguaje con el lanzamiento de Qwen2-VL, y continúa trabajando en mejoras arquitectónicas para expandir su utilidad en diversas aplicaciones. Los modelos ya están disponibles para su uso, y se invita a desarrolladores e investigadores a explorar su potencial.

La inteligencia artificial de Qwen2-VL de Alibaba analiza videos extensos.

¿Qué opinas?

Escrito por Redacción - El Semanal

Deja una respuestaCancelar la respuesta

¡Cuidado! Estos síntomas te indican que podrías tener la hemoglobina baja

Ampliación del servicio de Comunicaciones en Rico con iPhone, llega a más operadoras con la versión beta 3 de iOS 18.

La familia de Hulk Hogan: conoce a su esposa e hijos

Tone de Kai Cenat y AMP lanza su línea en Target ahora

La incertidumbre y la inflación frenan el optimismo de los emprendedores

Carney advierte que el T-MEC no soluciona todos los conflictos comerciales con EE.UU.

Organización Mundial de la Salud: Gaza podrá recibir vacunas contra la polio durante pausas en los combates

Stephen Curry renueva con los Warriors por un año y $62.6 millones.

La incertidumbre y la inflación frenan el optimismo de los emprendedores

¿Qué opinas?

Deja una respuestaCancelar la respuesta

Log In

With social network:

Or with username:

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Suscríbete a El Semanal