aiOla presenta revolucionario modelo de reconocimiento de voz, supera a OpenAI Whisper.

La startup israelí de inteligencia artificial aiOla ha anunciado el lanzamiento de un nuevo modelo de reconocimiento de voz de código abierto que supera en un 50% la velocidad del reconocido Whisper de OpenAI.

Este nuevo modelo, oficialmente denominado Whisper-Medusa, se basa en Whisper pero utiliza una arquitectura de «atención multi-head» que predice muchos más tokens a la vez que la oferta de OpenAI. Su código y pesos han sido lanzados en Hugging Face bajo una licencia MIT que permite tanto la investigación como el uso comercial.

Gill Hetz, vicepresidente de investigación de aiOla, comenta a VentureBeat: «Al liberar nuestra solución como código abierto, fomentamos más innovación y colaboración dentro de la comunidad, lo que puede llevar a mejoras y refinamientos aún mayores a medida que los desarrolladores e investigadores contribuyan y construyan sobre nuestro trabajo».

Este avance podría allanar el camino para sistemas de IA compuestos que puedan comprender y responder a lo que los usuarios preguntan casi en tiempo real.

Lo que hace único a aiOla Whisper-Medusa es su capacidad para reconocer y transcribir el habla incluso más rápido que Whisper, lo que permite conversiones más fluidas de voz a texto.

Para lograr Whisper-Medusa, la empresa modificó la arquitectura de Whisper añadiendo un mecanismo de atención multi-head, lo que permitió al modelo predecir diez tokens en cada paso en lugar del token estándar, resultando en un aumento del 50% en la velocidad de predicción de voz y en el tiempo de generación.

Además, al tener como base a Whisper, Whisper-Medusa no sacrifica el rendimiento por la velocidad, ya que transcribe texto con el mismo nivel de exactitud que el original. Hetz afirmó que son los primeros en la industria en aplicar con éxito este enfoque a un modelo de ASR y abrirlo al público para futuras investigaciones y desarrollos.

Al entrenar Whisper-Medusa, aiOla utilizó un enfoque de aprendizaje automático llamado supervisión débil. Congelaron los componentes principales de Whisper y utilizaron transcripciones de audio generadas por el modelo como etiquetas para entrenar módulos adicionales de predicción de tokens.

Hetz mencionó que comenzaron con un modelo de 10 cabezas, pero pronto lanzarán una versión más grande de 20 cabezas capaz de predecir 20 tokens a la vez, lo que permitirá una mayor velocidad de reconocimiento y transcripción sin ninguna pérdida de precisión.

En definitiva, aiOla Whisper-Medusa representa un avance significativo en el campo del reconocimiento y transcripción de voz, con el potencial de mejorar la productividad, reducir costos operativos y ofrecer respuestas en tiempo real tanto a nivel personal como empresarial.

aiOla presenta revolucionario modelo de reconocimiento de voz, supera a OpenAI Whisper.

¿Qué opinas?

Escrito por Redacción - El Semanal

Deja una respuestaCancelar la respuesta

Las declaraciones de Donald Trump tras recibir un disparo.

Ampliación del servicio de Comunicaciones en Rico con iPhone, llega a más operadoras con la versión beta 3 de iOS 18.

En qué consiste el bloqueo naval impuesto por Trump a Irán en el estrecho de Ormuz que entra en vigor este lunes

Críticos analizan el impacto y méritos de ‘Wicked: For Good’ en la cultura musical

La Unión Europea lanza plan de choque para contener crisis energética por guerra con Irán – Economía

Chile: Kast presenta megarreforma para impulsar inversión rebajando impuestos – Economía

Enagás Renovable destina 75 millones a plantas de biometano en Murcia.

Finaliza consulta en Ottawa sobre aranceles a autos eléctricos chinos. ¿Cuál será la siguiente etapa?

La Unión Europea lanza plan de choque para contener crisis energética por guerra con Irán – Economía

Chile: Kast presenta megarreforma para impulsar inversión rebajando impuestos – Economía

Teherán cobra peajes en Ormuz, mientras Estados Unidos inspecciona buques con crudo iraní – Economía

Alzas de tiquetes, menos beneficios, cancelaciones… así sortean las aerolíneas la guerra en Irán – Economía

«El mundo vive la peor crisis energética de su historia»: Agencia Internacional de Energía – Economía

¿Qué opinas?

Deja una respuestaCancelar la respuesta

Log In

With social network:

Or with username:

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Suscríbete a El Semanal