Hoy en día, el Instituto de Innovación Tecnológica respaldado por Abu Dhabi (TII), una organización de investigación que trabaja en tecnologías de nueva generación en campos como la inteligencia artificial, la computación cuántica y la robótica autónoma, ha lanzado un nuevo modelo de código abierto llamado Falcon Mamba 7B.
Este modelo, disponible en Hugging Face, utiliza la innovadora arquitectura Mamba State Space Language Model (SSLM) para manejar diversas tareas de generación de texto y superar a modelos líderes en su categoría de tamaño, incluidos Llama 3 8B, Llama 3.1 8B y Mistral 7B de Meta, en ciertos benchmarks.
Falcon Mamba 7B es el cuarto modelo abierto lanzado por TII después de Falcon 180B, Falcon 40B y Falcon 2, siendo el primero en la categoría SSLM, que está emergiendo rápidamente como una nueva alternativa a los modelos de lenguaje grandes basados en transformadores (LLMs).
El instituto ofrece el modelo bajo la ‘Licencia Falcon 2.0’, que es una licencia permisiva basada en Apache 2.0.
¿Qué aporta el Falcon Mamba 7B?
Mientras que los modelos de transformadores continúan dominando en el espacio de la inteligencia artificial generativa, los investigadores han notado que la arquitectura puede tener dificultades al tratar con piezas de texto más largas.
Básicamente, el mecanismo de atención de los transformadores, que funciona comparando cada palabra (o token) con todas las demás palabras en el texto para entender el contexto, demanda más potencia de cálculo y memoria para manejar ventanas de contexto en crecimiento.
Si los recursos no se escalan de manera adecuada, la inferencia se ralentiza y alcanza un punto en el que no puede manejar textos más allá de cierta longitud.
Para superar estos obstáculos, la arquitectura de modelo de lenguaje de espacio de estados (SSLM) que funciona actualizando continuamente un «estado» a medida que procesa palabras ha surgido como una alternativa prometedora. Ya ha sido implementada por algunas organizaciones, siendo TII el último adoptante.
Según TII, el nuevo modelo Falcon utiliza la arquitectura Mamba SSM propuesta originalmente por investigadores de las Universidades de Carnegie Mellon y Princeton en un artículo fechado en diciembre de 2023.
La arquitectura utiliza un mecanismo de selección que permite al modelo ajustar dinámicamente sus parámetros en función de la entrada. De esta manera, el modelo puede centrarse en o ignorar entradas particulares, similar a cómo funciona la atención en los transformadores, al tiempo que ofrece la capacidad de procesar secuencias largas de texto, como un libro completo, sin requerir recursos adicionales de memoria o cálculo.
Este enfoque hace que el modelo sea adecuado para tareas de traducción automática a escala empresarial, resumen de texto, procesamiento de imágenes y procesamiento de audio, así como tareas como estimación y pronóstico, señaló TII.
Para ver cómo se compara el Falcon Mamba 7B con los principales modelos de transformadores en la misma clase de tamaño, el instituto realizó una prueba para determinar la longitud máxima de contexto que los modelos pueden manejar al utilizar una sola GPU A10 de 24GB.
Los resultados revelaron que Falcon Mamba puede «ajustar secuencias más grandes que los modelos basados en transformadores SoTA mientras teóricamente puede ajustar una longitud de contexto infinita si se procesa el contexto completo token por token, o por fragmentos de tokens con un tamaño que se ajuste en la GPU, denominado como secuencial paralelo».
En una prueba separada de rendimiento, superó la arquitectura eficiente de atención de ventana deslizante de Mistral 7B para generar todos los tokens a una velocidad constante y sin ningún aumento en la memoria pico de CUDA.
Incluso en los benchmarks estándar de la industria, el rendimiento del nuevo modelo fue mejor que o casi similar al de los modelos de transformadores populares, así como los modelos de espacio de estados puros e híbridos.
Por ejemplo, en los benchmarks Arc, TruthfulQA y GSM8K, Falcon Mamba 7B obtuvo un puntaje del 62,03%, 53,42% y 52,54%, superando claramente a Llama 3 8B, Llama 3.1 8B, Gemma 7B y Mistral 7B.
Sin embargo, en los benchmarks MMLU y Hellaswag, quedó cerca de todos estos modelos.
No obstante, esto es solo el principio. Como próximo paso, TII planea optimizar aún más el diseño del modelo para mejorar su rendimiento y cubrir más escenarios de aplicación.
«Este lanzamiento representa un avance significativo, inspirando nuevas perspectivas y alimentando aún más la búsqueda de sistemas inteligentes. En TII, estamos empujando los límites tanto de los modelos de espacio de estados como de los transformadores para estimular una mayor innovación en la inteligencia artificial generativa», afirmó el Dr. Hakim Hacid, investigador jefe interino de la unidad de inteligencia artificial intercentros de TII, en un comunicado.
En general, la familia de modelos de lenguaje Falcon de TII ha sido descargada más de 45 millones de veces, consolidándose como uno de los lanzamientos de LLM más exitosos de los Emiratos Árabes Unidos.
GIPHY App Key not set. Please check settings