La nueva arquitectura de inteligencia artificial del Falcon Mamba 7B desafía a los modelos transformadores.

Hoy en día, el Instituto de Innovación Tecnológica respaldado por Abu Dhabi (TII), una organización de investigación que trabaja en tecnologías de nueva generación en campos como la inteligencia artificial, la computación cuántica y la robótica autónoma, ha lanzado un nuevo modelo de código abierto llamado Falcon Mamba 7B.

Este modelo, disponible en Hugging Face, utiliza la innovadora arquitectura Mamba State Space Language Model (SSLM) para manejar diversas tareas de generación de texto y superar a modelos líderes en su categoría de tamaño, incluidos Llama 3 8B, Llama 3.1 8B y Mistral 7B de Meta, en ciertos benchmarks.

Falcon Mamba 7B es el cuarto modelo abierto lanzado por TII después de Falcon 180B, Falcon 40B y Falcon 2, siendo el primero en la categoría SSLM, que está emergiendo rápidamente como una nueva alternativa a los modelos de lenguaje grandes basados en transformadores (LLMs).

El instituto ofrece el modelo bajo la ‘Licencia Falcon 2.0’, que es una licencia permisiva basada en Apache 2.0.

¿Qué aporta el Falcon Mamba 7B?

Mientras que los modelos de transformadores continúan dominando en el espacio de la inteligencia artificial generativa, los investigadores han notado que la arquitectura puede tener dificultades al tratar con piezas de texto más largas.

Básicamente, el mecanismo de atención de los transformadores, que funciona comparando cada palabra (o token) con todas las demás palabras en el texto para entender el contexto, demanda más potencia de cálculo y memoria para manejar ventanas de contexto en crecimiento.

Si los recursos no se escalan de manera adecuada, la inferencia se ralentiza y alcanza un punto en el que no puede manejar textos más allá de cierta longitud.

Para superar estos obstáculos, la arquitectura de modelo de lenguaje de espacio de estados (SSLM) que funciona actualizando continuamente un «estado» a medida que procesa palabras ha surgido como una alternativa prometedora. Ya ha sido implementada por algunas organizaciones, siendo TII el último adoptante.

Según TII, el nuevo modelo Falcon utiliza la arquitectura Mamba SSM propuesta originalmente por investigadores de las Universidades de Carnegie Mellon y Princeton en un artículo fechado en diciembre de 2023.

La arquitectura utiliza un mecanismo de selección que permite al modelo ajustar dinámicamente sus parámetros en función de la entrada. De esta manera, el modelo puede centrarse en o ignorar entradas particulares, similar a cómo funciona la atención en los transformadores, al tiempo que ofrece la capacidad de procesar secuencias largas de texto, como un libro completo, sin requerir recursos adicionales de memoria o cálculo.

Este enfoque hace que el modelo sea adecuado para tareas de traducción automática a escala empresarial, resumen de texto, procesamiento de imágenes y procesamiento de audio, así como tareas como estimación y pronóstico, señaló TII.

Para ver cómo se compara el Falcon Mamba 7B con los principales modelos de transformadores en la misma clase de tamaño, el instituto realizó una prueba para determinar la longitud máxima de contexto que los modelos pueden manejar al utilizar una sola GPU A10 de 24GB.

Los resultados revelaron que Falcon Mamba puede «ajustar secuencias más grandes que los modelos basados en transformadores SoTA mientras teóricamente puede ajustar una longitud de contexto infinita si se procesa el contexto completo token por token, o por fragmentos de tokens con un tamaño que se ajuste en la GPU, denominado como secuencial paralelo».

En una prueba separada de rendimiento, superó la arquitectura eficiente de atención de ventana deslizante de Mistral 7B para generar todos los tokens a una velocidad constante y sin ningún aumento en la memoria pico de CUDA.

Incluso en los benchmarks estándar de la industria, el rendimiento del nuevo modelo fue mejor que o casi similar al de los modelos de transformadores populares, así como los modelos de espacio de estados puros e híbridos.

Por ejemplo, en los benchmarks Arc, TruthfulQA y GSM8K, Falcon Mamba 7B obtuvo un puntaje del 62,03%, 53,42% y 52,54%, superando claramente a Llama 3 8B, Llama 3.1 8B, Gemma 7B y Mistral 7B.

Sin embargo, en los benchmarks MMLU y Hellaswag, quedó cerca de todos estos modelos.

No obstante, esto es solo el principio. Como próximo paso, TII planea optimizar aún más el diseño del modelo para mejorar su rendimiento y cubrir más escenarios de aplicación.

«Este lanzamiento representa un avance significativo, inspirando nuevas perspectivas y alimentando aún más la búsqueda de sistemas inteligentes. En TII, estamos empujando los límites tanto de los modelos de espacio de estados como de los transformadores para estimular una mayor innovación en la inteligencia artificial generativa», afirmó el Dr. Hakim Hacid, investigador jefe interino de la unidad de inteligencia artificial intercentros de TII, en un comunicado.

En general, la familia de modelos de lenguaje Falcon de TII ha sido descargada más de 45 millones de veces, consolidándose como uno de los lanzamientos de LLM más exitosos de los Emiratos Árabes Unidos.

La nueva arquitectura de inteligencia artificial del Falcon Mamba 7B desafía a los modelos transformadores.

¿Qué opinas?

Escrito por Redacción - El Semanal

Deja una respuestaCancelar la respuesta

Descubre cómo ganar dinero caminando para mejorar tu salud

Florida State y Georgia Tech ultiman planes para arranque de temporada en Irlanda

Las nuevas funciones de entretenimiento del iPhone en el 2024.

Ampliación del servicio de Comunicaciones en Rico con iPhone, llega a más operadoras con la versión beta 3 de iOS 18.

Marcas de lujo adoptan pasaportes digitales para productos de alta gama ahora

La innovación en IA empresarial se dispara con el enfoque ‘sandbox primero’

Evento sísmico sacude Los Ángeles según informe del Servicio Geológico de EE. UU.

El Pentágono planea desplegar el revolucionario Manta, un dron submarino clave en batallas navales.

Marcas de lujo adoptan pasaportes digitales para productos de alta gama ahora

La innovación en IA empresarial se dispara con el enfoque ‘sandbox primero’

Lilly Pulitzer lanza ropa vibrante para apoyar Penny’s Flight Foundation ahora

Spring 2026 vuelve a Marruecos con un renovado impulso diplomático y estratégico

Elites empresariales se congregan en Milán con Cucinelli y Zegna a la cabeza

¿Qué opinas?

Deja una respuestaCancelar la respuesta

Log In

With social network:

Or with username:

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Suscríbete a El Semanal