aiOla presenta revolucionario modelo de reconocimiento de voz, supera a OpenAI Whisper.

La startup israelí de inteligencia artificial aiOla ha anunciado el lanzamiento de un nuevo modelo de reconocimiento de voz de código abierto que supera en un 50% la velocidad del reconocido Whisper de OpenAI.

Este nuevo modelo, oficialmente denominado Whisper-Medusa, se basa en Whisper pero utiliza una arquitectura de «atención multi-head» que predice muchos más tokens a la vez que la oferta de OpenAI. Su código y pesos han sido lanzados en Hugging Face bajo una licencia MIT que permite tanto la investigación como el uso comercial.

Gill Hetz, vicepresidente de investigación de aiOla, comenta a VentureBeat: «Al liberar nuestra solución como código abierto, fomentamos más innovación y colaboración dentro de la comunidad, lo que puede llevar a mejoras y refinamientos aún mayores a medida que los desarrolladores e investigadores contribuyan y construyan sobre nuestro trabajo».

Este avance podría allanar el camino para sistemas de IA compuestos que puedan comprender y responder a lo que los usuarios preguntan casi en tiempo real.

Lo que hace único a aiOla Whisper-Medusa es su capacidad para reconocer y transcribir el habla incluso más rápido que Whisper, lo que permite conversiones más fluidas de voz a texto.

Para lograr Whisper-Medusa, la empresa modificó la arquitectura de Whisper añadiendo un mecanismo de atención multi-head, lo que permitió al modelo predecir diez tokens en cada paso en lugar del token estándar, resultando en un aumento del 50% en la velocidad de predicción de voz y en el tiempo de generación.

Además, al tener como base a Whisper, Whisper-Medusa no sacrifica el rendimiento por la velocidad, ya que transcribe texto con el mismo nivel de exactitud que el original. Hetz afirmó que son los primeros en la industria en aplicar con éxito este enfoque a un modelo de ASR y abrirlo al público para futuras investigaciones y desarrollos.

Al entrenar Whisper-Medusa, aiOla utilizó un enfoque de aprendizaje automático llamado supervisión débil. Congelaron los componentes principales de Whisper y utilizaron transcripciones de audio generadas por el modelo como etiquetas para entrenar módulos adicionales de predicción de tokens.

Hetz mencionó que comenzaron con un modelo de 10 cabezas, pero pronto lanzarán una versión más grande de 20 cabezas capaz de predecir 20 tokens a la vez, lo que permitirá una mayor velocidad de reconocimiento y transcripción sin ninguna pérdida de precisión.

En definitiva, aiOla Whisper-Medusa representa un avance significativo en el campo del reconocimiento y transcripción de voz, con el potencial de mejorar la productividad, reducir costos operativos y ofrecer respuestas en tiempo real tanto a nivel personal como empresarial.

Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Entradas recientes

Aumenta migración a través del Darién por elecciones en Venezuela.

La migración a través del Tapón de Darién aumentó en septiembre, liderada por venezolanos después…

6 mins hace

Nuevos auriculares revolucionan mercado con inteligencia artificial propia.

La empresa china ByteDance, reconocida por ser la propietaria de la popular red social TikTok,…

20 mins hace

Dos contiendas reñidas en regiones del noroeste podrían definir control congresional.

En el área del noroeste del Pacífico, dos contiendas electorales de la Cámara de Representantes…

31 mins hace

Atacantes asesinan a 20 mineros y hieren a más en Pakistán.

En un reciente ataque en el suroeste de Pakistán, veinte mineros perdieron la vida y…

56 mins hace

Gerrit Cole brilla en los playoffs, deja sin opciones a los Royals y lleva a los Yankees de vuelta a la ALCS con una victoria 3-1.

En una noche apasionante para los aficionados al béisbol, Gerrit Cole brilló como el as…

1 hora hace

Obama insta a hombres afrodescendientes a apoyar a Harris en Pensilvania clave.

El ex presidente de Estados Unidos, Barack Obama, ha instado a los hombres afroamericanos a…

2 horas hace