La prestigiosa empresa Mistral AI ha decidido adentrarse en el campo de los modelos multimodales con el lanzamiento de su primer modelo, Pixtral 12B. Esta startup francesa, conocida por desafiar a gigantes como OpenAI y Anthropic, sorprendió a la industria al combinar capacidades de procesamiento de lenguaje y visión en su nueva creación.
Aunque la disponibilidad del modelo en la web pública aún no se ha confirmado, el código fuente ya está disponible para su descarga en plataformas como Hugging Face o GitHub, permitiendo a los interesados probarlo en instancias individuales. Además, Mistral AI rompió con la tendencia habitual de lanzamiento de modelos de inteligencia artificial al ofrecer inicialmente un enlace torrent para descargar los archivos del nuevo modelo.
Sophia Yang, responsable de relaciones con desarrolladores en la compañía, anunció que próximamente el modelo estará disponible a través de su chatbot web, brindando la oportunidad a los potenciales desarrolladores de experimentar con él. Asimismo, estará disponible en La Platforme de Mistral, que proporciona puntos finales de API para utilizar los modelos de la empresa.
¿Qué aporta Pixtral 12B?
Aunque los detalles oficiales del nuevo modelo y los datos con los que fue entrenado aún no se han revelado, la idea principal detrás de Pixtral 12B parece ser permitir a los usuarios analizar imágenes combinando texto descriptivo con ellas. De esta manera, se podrá cargar una imagen o proporcionar un enlace hacia una y formular preguntas sobre los elementos presentes en el archivo.
Esta incursión en el mundo multimodal es un hito para Mistral, aunque es importante señalar que otros modelos, como los de competidores como OpenAI y Anthropic, ya cuentan con capacidades de procesamiento de imágenes.
Según testimonios de usuarios iniciales, la arquitectura del modelo de 24GB parece contar con 40 capas, 14,336 dimensiones ocultas y 32 cabezas de atención para un extenso procesamiento computacional. En cuanto al procesamiento visual, posee un codificador de visión dedicado con soporte de resolución de imagen de 1024×1024 y 24 capas ocultas para un procesamiento avanzado de imágenes.
Mistral apuesta por competir con los principales laboratorios de inteligencia artificial
Con el lanzamiento de Pixtral 12B, Mistral pretende democratizar el acceso a aplicaciones visuales como el análisis de contenido y datos. Si bien el rendimiento exacto del modelo abierto aún está por verse, este avance se suma a la estrategia agresiva que la empresa ha adoptado en el ámbito de la inteligencia artificial.
Desde su lanzamiento el año pasado, Mistral no solo ha desarrollado una sólida cartera de modelos para competir con laboratorios líderes como OpenAI, sino que también ha establecido alianzas con gigantes de la industria como Microsoft, AWS y Snowflake para ampliar el alcance de su tecnología.
Recientemente, la compañía recaudó $640 millones con una valuación de $6 mil millones y presentó Mistral Large 2, un modelo de clase GPT-4 con capacidades multilingües avanzadas y un mejor rendimiento en razonamiento, generación de código y matemáticas. Además, ha lanzado Mixtral 8x22B, un modelo de codificación de pesos abiertos de 22B parámetros llamado Codestral, y un modelo dedicado para razonamiento matemático y descubrimiento científico.
GIPHY App Key not set. Please check settings