Un nuevo modelo de transfusión de Meta maneja texto e imágenes en una sola arquitectura
Los modelos multimodales que pueden procesar tanto texto como imágenes son un área de investigación en crecimiento en inteligencia artificial. Sin embargo, el entrenamiento de estos modelos presenta un desafío único: los modelos de lenguaje lidian con valores discretos (palabras y tokens), mientras que los modelos de generación de imágenes deben manejar valores de píxeles continuos.
En un nuevo estudio de investigación, científicos de Meta y la Universidad de Carolina del Sur presentan Transfusion, una técnica novedosa que permite a un solo modelo manejar de manera fluida tanto modalidades discretas como continuas.
Los retos de los modelos multimodales
Los enfoques actuales para abordar el desafío de la multimodalidad a menudo implican diferentes compensaciones. Algunas técnicas utilizan arquitecturas separadas para el procesamiento de lenguaje e imágenes, a menudo pre-entrenando cada componente individualmente. Esto es el método utilizado en modelos como LLaVA. Estos modelos luchan por aprender las complejas interacciones entre diferentes modalidades, especialmente al procesar documentos donde las imágenes y el texto están entrelazados.
Otras técnicas cuantizan imágenes en valores discretos, convirtiéndolas efectivamente en una secuencia de tokens similar al texto. Este es el enfoque utilizado por el modelo Chameleon de Meta, que fue introducido a principios de este año. Si bien este enfoque permite el uso de modelos de lenguaje para el procesamiento de imágenes, resulta en la pérdida de información contenida en los valores de píxeles continuos.
Chunting Zhou, Científica Investigadora Senior en Meta IA y coautora del estudio, previamente trabajó en el artículo de Chameleon.
«Nos dimos cuenta de que el método de cuantización crea un cuello de botella de información para las representaciones de imágenes, donde las representaciones discretas de imágenes están altamente comprimidas y pierden información en las imágenes originales», dijo a VentureBeat. «Y al mismo tiempo, es muy complicado entrenar un buen tokenizador discreto de imágenes. Por lo tanto, nos hicimos la pregunta ‘¿Podemos simplemente usar las representaciones continuas más naturales de imágenes cuando entrenamos un modelo multimodal junto con texto discreto?'»
Transfusion: Un enfoque unificado para el aprendizaje multimodal
«Los modelos de difusión y los modelos autoregresivos de predicción de siguiente token representan lo mejor de ambos mundos para generar datos continuos y discretos, respectivamente», dijo Zhou. «Esto nos inspiró a desarrollar un nuevo método multimodal que combine lo mejor de ambos mundos de manera natural y simple.»
Transfusion es una receta para entrenar un solo modelo que puede manejar ambas modalidades discretas y continuas sin necesidad de cuantización o módulos separados. La idea central detrás de Transfusion es entrenar un solo modelo con dos objetivos: modelado de lenguaje para texto y difusión para imágenes.
Transfusion combina estos dos objetivos para entrenar un modelo transformador que puede procesar y generar tanto texto como imágenes. Durante el entrenamiento, el modelo se expone tanto a datos de texto como de imagen, y las funciones de pérdida para el modelado de lenguaje y la difusión se aplican simultáneamente.
Transfusion utiliza una arquitectura y vocabulario unificados para procesar entradas mixtas de modalidades. El modelo incluye componentes específicos de modalidad ligeros que convierten tokens de texto y parches de imagen en las representaciones apropiadas antes de ser procesados por el transformador.
Para mejorar la representación de datos de imagen, Transfusion utiliza autoencoders variacionales (VAE), redes neuronales que pueden aprender a representar datos complejos, como imágenes, en un espacio continuo de dimensiones más bajas. En Transfusion, se utiliza un VAE para codificar cada parche de imagen de 8×8 en una lista de valores continuos.
«Nuestra principal innovación es demostrar que podemos usar pérdidas separadas para diferentes modalidades -modelado de lenguaje para texto, difusión para imágenes- sobre datos y parámetros compartidos», escriben los investigadores.
Transfusion supera a los enfoques basados en cuantización
Los investigadores entrenaron un modelo de 7 mil millones basado en Transfusion y lo evaluaron en una variedad de benchmarks estándar unimodales y multimodales, incluyendo tareas de texto a texto, texto a imagen e imagen a texto. Compararon su rendimiento con un modelo del mismo tamaño basado en Chameleon, que es el método prominente actual en ciencia abierta para entrenar modelos multimodales nativos.
En sus experimentos, Transfusion superó consistentemente a Chameleon en todas las modalidades. En la generación de texto a imagen, Transfusion logró mejores resultados con menos de un tercio del costo computacional de Chameleon. De manera similar, en la generación de imagen a texto, Transfusion igualó el rendimiento de Chameleon con solo el 21,8% de los recursos computacionales.
Sorprendentemente, Transfusion también mostró un mejor rendimiento en benchmarks de solo texto, a pesar de que tanto Transfusion como Chameleon utilizan el mismo objetivo de modelado de lenguaje para texto. Esto sugiere que el entrenamiento en tokens de imagen cuantizados puede afectar negativamente el rendimiento del texto.
«Como reemplazo, Transfusion escala mejor que los enfoques de entrenamiento multimodal comúnmente adoptados con tokens de imagen discretos por un amplio margen en general», dijo Zhou.
Ejemplos de imágenes generadas con un modelo Transfusion de 7 mil millones
Los investigadores realizaron experimentos separados en generación de imágenes y compararon Transfusion con otros modelos de generación de imágenes. Transfusion superó a otros modelos populares como DALL-E 2 y Stable Diffusion XL, pudiendo también generar texto.
«Transfusion abre muchas nuevas oportunidades para el aprendizaje multimodal y nuevos casos de uso interesantes», dijo Zhou. «Como Transfusion funciona igual que LLM pero en datos multimodal, esto potencialmente desbloquea nuevas aplicaciones con mejor control en sesiones interactivas de entradas de usuarios, por ejemplo, edición interactiva de imágenes y videos».
Mantente informado con El Semanal para conocer las últimas novedades y contenido exclusivo sobre la cobertura líder en IA de la industria. Suscríbete a nuestras newsletters diarias y semanales para mantenerte al tanto de las últimas actualizaciones.
GIPHY App Key not set. Please check settings