in

GLM-4.6V revoluciona el razonamiento multimodal con su lanzamiento en código abierto.

La empresa china de inteligencia artificial Zhipu AI, también conocida como Z.ai, ha lanzado recientemente su serie GLM-4.6V, una nueva generación de modelos de lenguaje y visión (VLMs) de código abierto. Estos modelos están optimizados para el razonamiento multimodal, la automatización de frontend y la implementación eficiente.

La serie GLM-4.6V cuenta con dos modelos de diferentes tamaños: GLM-4.6V (106B), un modelo más grande de 106 mil millones de parámetros diseñado para inferencia a escala de nube, y GLM-4.6V-Flash (9B), un modelo más pequeño de 9 mil millones de parámetros creado para aplicaciones locales con baja latencia.

Una de las innovaciones clave de esta serie es la introducción de la llamada de función nativa en un modelo de lenguaje y visión, lo que permite el uso directo de herramientas como búsqueda, recorte o reconocimiento de gráficos con entradas visuales.

Con una longitud de contexto de 128.000 tokens y resultados de última generación en más de 20 puntos de referencia, la serie GLM-4.6V se posiciona como una alternativa altamente competitiva tanto a los VLMs de código abierto como a los cerrados. Está disponible en varios formatos, incluyendo acceso a API, demostración en la interfaz web de Zhipu y descarga de pesos desde Hugging Face.

En cuanto a la licencia, GLM-4.6V y GLM-4.6V-Flash se distribuyen bajo la licencia MIT, lo que permite su uso comercial y no comercial gratuito, modificación, redistribución y despliegue local sin obligación de abrir el código fuente de trabajos derivados.

La arquitectura de los modelos GLM-4.6V sigue un diseño de codificador-decodificador convencional con adaptaciones significativas para entradas multimodales. Incorporan un codificador Vision Transformer (ViT) y un proyector MLP para alinear características visuales con un decodificador de modelo de lenguaje grande.

El modelo admite resolución de imágenes arbitraria y relaciones de aspecto, incluyendo entradas panorámicas amplias de hasta 200:1. Además de la comprensión de imágenes estáticas y documentos, GLM-4.6V puede procesar secuencias temporales de cuadros de video con tokens de marca de tiempo explícita, lo que permite un razonamiento temporal sólido.

En términos de rendimiento, GLM-4.6V ha sido evaluado en más de 20 puntos de referencia públicos que cubren VQA general, comprensión de gráficos, OCR, razonamiento STEM, replicación de frontend y agentes multimodales.

Según los puntos de referencia publicados por Zhipu AI, GLM-4.6V (106B) logra puntuaciones de última generación o cercanas a la última generación entre modelos de código abierto de tamaño comparable en MMBench, MathVista, MMLongBench, ChartQAPro, RefCOCO, TreeBench y más.

Zhipu AI ha enfatizado la capacidad de GLM-4.6V para respaldar los flujos de trabajo de desarrollo de frontend. El modelo puede replicar HTML/CSS/JS preciso de píxeles a partir de capturas de pantalla de la interfaz de usuario, aceptar comandos de edición de lenguaje natural para modificar diseños e identificar y manipular componentes específicos de la interfaz de usuario de manera visual.

En escenarios de documentos largos, GLM-4.6V puede procesar hasta 128.000 tokens, lo que permite un solo paso de inferencia en 150 páginas de texto, 200 diapositivas o videos de 1 hora. Zhipu AI informó sobre el uso exitoso del modelo en análisis financiero en corpus de documentos múltiples y en la resumir transmisiones deportivas completas con detección de eventos con marca de tiempo.

El modelo fue entrenado utilizando un preentrenamiento en varias etapas seguido de ajuste supervisado fino (SFT) y aprendizaje de refuerzo (RL).

En términos de precios, Zhipu AI ofrece precios competitivos para la serie GLM-4.6V, con el modelo insignia y su variante ligera posicionados para una alta accesibilidad.

Comparado con los principales LLM vision-capaces y de texto, GLM-4.6V es uno de los más rentables para el razonamiento multimodal a escala.

El lanzamiento de GLM-4.6V representa un avance notable en la inteligencia artificial multimodal de código abierto. Si bien los grandes modelos de lenguaje y visión han proliferado durante el último año, pocos ofrecen el uso integrado de herramientas visuales, generación multimodal estructurada y lógica de memoria y decisión orientada a agentes.

La arquitectura y la canalización de entrenamiento de GLM-4.6V muestran una evolución continua de la familia GLM, posicionándola de manera competitiva junto a ofertas como GPT-4V de OpenAI y Gemini-VL de Google DeepMind.

Para los líderes empresariales, GLM-4.6V introduce un VLM de código abierto capaz de usar herramientas visuales nativas, razonamiento de contexto largo y automatización de frontend. Establece nuevos estándares de rendimiento entre modelos de tamaño similar y proporciona una plataforma escalable para construir sistemas de inteligencia artificial multimodal y agénticos.

¿Qué opinas?

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Ralph Lauren trae su experiencia navideña a Los Ángeles este año también

Birman y Agua Bendita unen fuerzas en innovadora línea de calzado conjunto