LLaMA-Omni desafía a Siri y Alexa con inteligencia artificial de código abierto.

Investigadores de la Academia China de Ciencias han desarrollado un modelo de inteligencia artificial que podría cambiar la forma en que interactuamos con los asistentes digitales. Este nuevo sistema, llamado LLaMA-Omni, permite la interacción en tiempo real a través del habla con grandes modelos de lenguaje (LLMs), lo que promete transformar industrias desde el servicio al cliente hasta la atención médica.

LLaMA-Omni, construido sobre el modelo Llama 3.1 8B Instruct de código abierto de Meta, puede procesar instrucciones habladas y generar respuestas tanto en texto como en habla de forma simultánea. El sistema cuenta con una latencia impresionante tan baja como 226 milisegundos, rivalizando con la velocidad de conversación humana.

«LLaMA-Omni admite interacciones de habla de alta calidad y baja latencia, generando simultáneamente respuestas en texto y habla basadas en las instrucciones de habla», indicó el equipo de investigación en su artículo publicado en arXiv.

Este avance llega en un momento crucial para la industria de la inteligencia artificial. Mientras las grandes empresas tecnológicas compiten por integrar capacidades de voz en sus asistentes de IA, LLaMA-Omni ofrece un atajo potencial para empresas más pequeñas e investigadores. El modelo puede ser entrenado en menos de tres días utilizando solo cuatro GPUs, una fracción de los recursos normalmente requeridos para sistemas avanzados de este tipo.

Las implicaciones para los negocios son significativas. Las operaciones de servicio al cliente podrían ver una transformación drástica, con asistentes de voz basados en IA capaces de manejar consultas complejas en tiempo real. Los proveedores de atención médica podrían emplear estos sistemas para interactuar de forma más natural con los pacientes y para la dictación. En el ámbito educativo, los tutores de IA habilitados para voz podrían ofrecer instrucción personalizada con una capacidad de respuesta sin precedentes.

A pesar de los desafíos que aún persisten, como la calidad de la síntesis del habla y las preocupaciones de privacidad, LLaMA-Omni representa un paso significativo hacia interfaces de voz más naturales para asistentes de IA y chatbots. Al haber compartido tanto el modelo como el código de forma abierta, podemos esperar rápidas iteraciones y mejoras por parte de la comunidad global de IA.

La carrera por la IA habilitada para voz se está calentando. Con gigantes tecnológicos como Apple, Google y Amazon ya profundamente involucrados en la tecnología de voz, la arquitectura eficiente de LLaMA-Omni podría nivelar el campo de juego para jugadores más pequeños e investigadores.

Este desarrollo tiene implicaciones que van más allá del avance tecnológico. Representa un cambio hacia una tecnología de IA más inclusiva y accesible. Al reducir las barreras de entrada para la creación de sistemas de IA habilitados para voz sofisticados, LLaMA-Omni podría llevar a una proliferación de aplicaciones diversas adaptadas a industrias específicas, idiomas y contextos culturales.

En resumen, nos encontramos al borde de una revolución en la interacción de IA basada en la voz. Empresas que puedan integrar con éxito estas tecnologías en sus productos y servicios pueden encontrar una ventaja competitiva significativa y podrían remodelar industrias enteras, desde el servicio al cliente y la salud hasta la educación y el entretenimiento, ya que la voz se convierte en la interfaz principal para la interacción humano-IA.

LLaMA-Omni desafía a Siri y Alexa con inteligencia artificial de código abierto.

¿Qué opinas?

Escrito por Redacción - El Semanal

Deja una respuestaCancelar la respuesta

En qué consiste el bloqueo naval impuesto por Trump a Irán en el estrecho de Ormuz que entra en vigor este lunes

Las declaraciones de Donald Trump tras recibir un disparo.

Innovador lanzamiento de Pika 1.5 revoluciona efectos especiales con inteligencia artificial.

¿De qué va ‘Los testamentos’?: así es la secuela de ‘El cuento de la criada’, que ya puedes ver en Disney +

¿Quién entrena y supervisa la IA en América Latina? • Contxto

La industria healthtech acelera su crecimiento con la expansión de startups y nuevos lanzamientos • Contxto

Desaparece el misterio en la comunidad de Fairy Creek.

iPhone 16 Pro: Exponentes velocidades 5G con módem innovador

¿Quién entrena y supervisa la IA en América Latina? • Contxto

La industria healthtech acelera su crecimiento con la expansión de startups y nuevos lanzamientos • Contxto

Satellites on Fire levanta una ronda de 2.7 millones de dólares y anuncia proceso de expansión

Latinoamérica cierra el primer trimestre de 2026 con México liderando las rondas de inversión

Fracttal adquiere la española TCMAN para expandirse en Europa • Contxto

¿Qué opinas?

Deja una respuestaCancelar la respuesta

Log In

With social network:

Or with username:

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Suscríbete a El Semanal