in

Mistral presenta Codestral Mamba para una generación de código más rápida y extensa.

La compañía francesa Mistral ha lanzado hoy dos nuevos modelos dentro de su creciente familia de grandes modelos de lenguaje (LLMs) basados en la nueva arquitectura conocida como Mamba, desarrollada por otros investigadores a finales del año pasado.

Mamba busca mejorar la eficiencia de la arquitectura transformer utilizada por la mayoría de los principales LLMs al simplificar sus mecanismos de atención. Los modelos basados en Mamba, a diferencia de los basados en transformer, podrían tener tiempos de inferencia más rápidos y un contexto más largo. Otras empresas y desarrolladores, como AI21, han lanzado nuevos modelos de IA basados en esta arquitectura.

Utilizando esta nueva arquitectura, el modelo de Mistral llamado Codestral Mamba 7B ofrece un tiempo de respuesta rápido incluso con textos de entrada más largos. Codestral Mamba funciona bien para casos de uso relacionados con la productividad en el código, especialmente para proyectos de codificación locales.

Mistral probó el modelo, que será de uso gratuito en la API de Mistral, manejando entradas de hasta 256,000 tokens, el doble que el GPT-4o de OpenAI.

En pruebas de referencia, Mistral demostró que Codestral Mamba superó a modelos de código de código abierto rivales como CodeLlama 7B, CodeGemma-1.17B y DeepSeek en pruebas de HumanEval.

Los desarrolladores pueden modificar e implementar Codestral Mamba desde su repositorio en GitHub y a través de HuggingFace. Estará disponible bajo una licencia de código abierto Apache 2.0.

Mistral afirmó que la versión anterior de Codestral superó a otros generadores de código como CodeLlama 70B y DeepSeek Coder 33B.

La generación de código y los asistentes de codificación se han convertido en aplicaciones ampliamente utilizadas para los modelos de IA, con plataformas como Copilot de GitHub, impulsado por OpenAI, CodeWhisperer de Amazon y Codenium ganando popularidad.

Por otro lado, el segundo lanzamiento de Mistral es Mathstral 7B, un modelo de IA diseñado específicamente para razonamiento relacionado con matemáticas y descubrimientos científicos. Mistral desarrolló Mathstral en colaboración con Project Numina.

Mathstral tiene una ventana de contexto de 32K y estará bajo la licencia de código abierto Apache 2.0. Mistral afirmó que el modelo superó a todos los demás diseñados para el razonamiento matemático y puede lograr «resultados significativamente mejores» en comparación con computaciones de tiempo de inferencia. Los usuarios pueden utilizarlo tal cual o ajustar el modelo.

Por último, Mistral, que tiende a ofrecer sus modelos en un sistema de código abierto, ha estado compitiendo constantemente contra otros desarrolladores de IA como OpenAI y Anthropic. Recientemente recaudó $640 millones en financiación de la serie B, lo que llevó su valoración a cerca de $6 mil millones. La compañía también recibió inversiones de gigantes tecnológicos como Microsoft y IBM.

¿Qué opinas?

120 Votos
Upvote Downvote

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

John Deere finaliza eventos de conciencia social y cultural, alejándose de la inclusión.

Alcalde de París nada en el Sena para demostrar limpieza ante los Juegos Olímpicos.