in

La inteligencia artificial avanza con conjuntos de datos más eficientes y razonamiento multimodal

Avances en el Razonamiento Multimodal: Un Nuevo Enfoque para Modelos de Inteligencia Artificial

En el campo de la inteligencia artificial (IA), el razonamiento multimodal se ha convertido en un área de investigación crucial. Este enfoque busca dotar a los modelos de IA de la capacidad de comprender y procesar información proveniente de diferentes fuentes, como texto e imágenes, de manera conjunta y coherente. Recientemente, investigadores de MiroMind AI y varias universidades chinas han desarrollado un nuevo marco de entrenamiento denominado OpenMMReasoner, que mejora significativamente las capacidades de razonamiento multimodal en modelos de lenguaje.

El Desafío del Razonamiento Multimodal Transparente

El razonamiento multimodal transparente es esencial para garantizar que los modelos de IA sean confiables y eficientes. Sin embargo, muchos estudios sobre razonamiento multimodal no proporcionan información detallada sobre sus procesos de entrenamiento y selección de datos, lo que dificulta reproducir sus resultados y comprender cómo funcionan estos modelos. OpenMMReasoner aborda este desafío mediante un enfoque de entrenamiento totalmente transparente y escalable, basado en modelos de lenguaje multimodal de código abierto.

El Enfoque de OpenMMReasoner

OpenMMReasoner utiliza un proceso de entrenamiento en dos etapas. La primera etapa implica un ajuste fino supervisado (SFT) con un conjunto de datos seleccionado. En esta etapa, los investigadores recopilaron alrededor de 103,000 pares de preguntas y respuestas de conjuntos de datos públicos que cubren tareas generales de preguntas y respuestas visuales y de razonamiento. Luego, agregaron un paso de destilación de datos, utilizando un modelo potente para generar trazas de razonamiento de alta calidad para preguntas seleccionadas. Esto expandió el conjunto de datos a 583,000 muestras. Finalmente, implementaron una fase de "mezcla de dominios", agregando datos de dominios de razonamiento matemático para generalizar aún más las capacidades del modelo, lo que resultó en un conjunto de datos SFT final de 874,000 ejemplos.

La Segunda Etapa: Aprendizaje por Refuerzo

La segunda etapa consiste en una receta de aprendizaje por refuerzo (RL) que utiliza un conjunto de datos seleccionado de 74,000 muestras de dominios como la ciencia, las matemáticas y los rompecabezas. El modelo se entrena con una función de recompensa compuesta que considera tanto la corrección de la respuesta final como la consistencia del formato de salida. Para mejorar la eficiencia, el proceso incluye una penalización por "sobrepensamiento", lo que desalienta al modelo de generar respuestas excesivamente largas.

Resultados y Ventajas

Los investigadores utilizaron la receta OpenMMReasoner para generar datos para ajustar el modelo de lenguaje multimodal de código abierto Qwen2.5-VL-7B-Instruct. El resultado es un modelo de lenguaje multimodal altamente capaz que supera consistentemente a los métodos de última generación en una amplia gama de puntos de referencia de razonamiento multimodal. La etapa SFT por sí sola crea un modelo de referencia sólido que logra un rendimiento superior y una eficiencia de datos en comparación con otros enfoques SFT, a pesar de utilizar un conjunto de datos de entrenamiento significativamente más pequeño.

Conclusión

OpenMMReasoner ofrece beneficios significativos para las empresas que buscan ir más allá de los sistemas grandes y cerrados. Un modelo de razonamiento de código abierto más pequeño tiene ventajas prácticas, como la capacidad de desplegarlo localmente, reducir la latencia, disminuir los costos asociados con largas cadenas de pensamiento y mantener el control total sobre sus datos. Además, este enfoque permite una mayor transparencia y reproducibilidad, lo que es esencial para las empresas que buscan validar sus datos y personalizar sus procesos para nuevos dominios. En el futuro, se espera que estos métodos se extiendan a video y audio, lo que mejorará aún más las capacidades de razonamiento multimodal de los modelos de IA.

¿Qué opinas?

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Chanel presenta colección 2025 con elegancia refinada en pasarela de moda

Descubriendo los secretos de belleza de las francesas: productos estrella para piel, cuerpo y cabello.