La startup israelí de inteligencia artificial aiOla ha anunciado el lanzamiento de un nuevo modelo de reconocimiento de voz de código abierto que supera en un 50% la velocidad del reconocido Whisper de OpenAI.
Este nuevo modelo, oficialmente denominado Whisper-Medusa, se basa en Whisper pero utiliza una arquitectura de «atención multi-head» que predice muchos más tokens a la vez que la oferta de OpenAI. Su código y pesos han sido lanzados en Hugging Face bajo una licencia MIT que permite tanto la investigación como el uso comercial.
Gill Hetz, vicepresidente de investigación de aiOla, comenta a VentureBeat: «Al liberar nuestra solución como código abierto, fomentamos más innovación y colaboración dentro de la comunidad, lo que puede llevar a mejoras y refinamientos aún mayores a medida que los desarrolladores e investigadores contribuyan y construyan sobre nuestro trabajo».
Este avance podría allanar el camino para sistemas de IA compuestos que puedan comprender y responder a lo que los usuarios preguntan casi en tiempo real.
Lo que hace único a aiOla Whisper-Medusa es su capacidad para reconocer y transcribir el habla incluso más rápido que Whisper, lo que permite conversiones más fluidas de voz a texto.
Para lograr Whisper-Medusa, la empresa modificó la arquitectura de Whisper añadiendo un mecanismo de atención multi-head, lo que permitió al modelo predecir diez tokens en cada paso en lugar del token estándar, resultando en un aumento del 50% en la velocidad de predicción de voz y en el tiempo de generación.
Además, al tener como base a Whisper, Whisper-Medusa no sacrifica el rendimiento por la velocidad, ya que transcribe texto con el mismo nivel de exactitud que el original. Hetz afirmó que son los primeros en la industria en aplicar con éxito este enfoque a un modelo de ASR y abrirlo al público para futuras investigaciones y desarrollos.
Al entrenar Whisper-Medusa, aiOla utilizó un enfoque de aprendizaje automático llamado supervisión débil. Congelaron los componentes principales de Whisper y utilizaron transcripciones de audio generadas por el modelo como etiquetas para entrenar módulos adicionales de predicción de tokens.
Hetz mencionó que comenzaron con un modelo de 10 cabezas, pero pronto lanzarán una versión más grande de 20 cabezas capaz de predecir 20 tokens a la vez, lo que permitirá una mayor velocidad de reconocimiento y transcripción sin ninguna pérdida de precisión.
En definitiva, aiOla Whisper-Medusa representa un avance significativo en el campo del reconocimiento y transcripción de voz, con el potencial de mejorar la productividad, reducir costos operativos y ofrecer respuestas en tiempo real tanto a nivel personal como empresarial.
GIPHY App Key not set. Please check settings