Meta lanza modelo open source que fusiona texto y voz para Spirit LM.

Meta presenta Spirit LM, un modelo de lenguaje multimodal de código abierto que combina entradas y salidas de texto y voz. Esta innovación compite directamente con otros modelos multimodales como GPT-40 de OpenAI y EVI 2 de Hume, así como con herramientas dedicadas de texto a voz y voz a texto como ElevenLabs.

Desarrollado por el equipo de Investigación Fundamental de Inteligencia Artificial (FAIR) de Meta, Spirit LM tiene como objetivo mejorar las experiencias de voz actuales ofreciendo una generación de voz más expresiva y natural, aprendiendo tareas a través de modalidades como reconocimiento automático del habla (ASR), texto a voz (TTS) y clasificación del habla.

Es importante destacar que, por el momento, este modelo solo está disponible para uso no comercial bajo la Licencia de Investigación No Comercial de FAIR de Meta. Esto permite a los usuarios utilizar, reproducir, modificar y crear trabajos derivados de los modelos de Meta Spirit LM, pero exclusivamente con fines no comerciales. Cualquier distribución de estos modelos o derivados debe cumplir con la restricción no comercial.

Meta Spirit LM introduce un enfoque innovador a la integración de texto y voz en la inteligencia artificial. A diferencia de los modelos tradicionales que procesan entradas habladas antes de sintetizarlas con un modelo de lenguaje y convertirlas en habla, Spirit LM incorpora tokens fonéticos, de tono y de entonación para preservar las cualidades expresivas y emocionales propias del habla humana.

El modelo se presenta en dos versiones: Spirit LM Base, que utiliza tokens fonéticos para procesar y generar habla, y Spirit LM Expressive, que incluye tokens adicionales para tono y entonación, permitiendo capturar estados emocionales más matizados y reflejarlos en el habla generada.

Ambas versiones están entrenadas con conjuntos de datos de texto y voz, lo que permite a Spirit LM realizar tareas entre modalidades como de voz a texto y de texto a voz, manteniendo la naturalidad y expresividad del habla en sus salidas.

En línea con el compromiso de Meta con la ciencia abierta, Spirit LM es completamente de código abierto, brindando a investigadores y desarrolladores los recursos necesarios para construir sobre esta base. Se espera que esta apertura fomente a la comunidad de investigación en inteligencia artificial a explorar nuevas formas de integrar voz y texto en los sistemas de IA.

Mark Zuckerberg, CEO de Meta, ha abogado fuertemente por la IA de código abierto, destacando el potencial de esta tecnología para mejorar la productividad, la creatividad y la calidad de vida de las personas, así como para acelerar avances en áreas como la investigación médica y científica.

Spirit LM de Meta tiene aplicaciones en reconocimiento automático del habla, texto a voz, clasificación del habla e incluso en la generación de emociones a través del habla. Esto tiene implicaciones significativas en aplicaciones como asistentes virtuales y bots de servicio al cliente, donde la comunicación nuance y expresiva es fundamental.

Es importante mencionar que Spirit LM forma parte de un conjunto amplio de herramientas y modelos de investigación que Meta FAIR está liberando al público. Esta iniciativa busca avanzar en la inteligencia artificial de manera poderosa y accesible, apuntando a beneficios tanto para la comunidad tecnológica como para la sociedad en general.

Con el lanzamiento de Meta Spirit LM, Meta avanza significativamente en la integración de voz y texto en los sistemas de IA. Al ofrecer un enfoque más natural y expresivo para la generación de voz por IA, y al hacer el modelo de código abierto, Meta está permitiendo a la comunidad investigadora explorar nuevas posibilidades para aplicaciones de IA multimodales.

En resumen, Spirit LM representa un avance prometedor en el campo del aprendizaje automático, con el potencial de impulsar una nueva generación de interacciones más humanas con la IA.

One Comment

Sort by

¡Vaya, esto suena como algo sacado de una película de ciencia ficción! La idea de combinar texto y voz en un modelo open source es realmente innovadora. Me pregunto cómo esto podría cambiar la forma en que interactuamos con la tecnología en el futuro. ¿Alguien más se siente emocionado por las posibilidades que esto podría abrir? ¡El futuro está aquí, amigos! 🚀🔊

Responder

Deja una respuestaCancelar la respuesta

GIPHY App Key not set. Please check settings

Miguel_Angel says:

octubre 19, 2024 at 1:39 am Copy Link of a Comment

¡Vaya, esto suena como algo sacado de una película de ciencia ficción! La idea de combinar texto y voz en un modelo open source es realmente innovadora. Me pregunto cómo esto podría cambiar la forma en que interactuamos con la tecnología en el futuro. ¿Alguien más se siente emocionado por las posibilidades que esto podría abrir? ¡El futuro está aquí, amigos! 🚀🔊

0

Responder