Modelo ASR abierto de Cohere logra 5.4% de error, listo para reemplazar APIs.

En un sector donde la innovación tecnológica se ha convertido en un pilar para la eficiencia y la creatividad, la industria de la moda enfrenta desafíos únicos en la gestión de contenido audiovisual. Desde la documentación de desfiles y entrevistas hasta la creación de accesibilidad en eventos, la necesidad de herramientas de transcripción precisas y privadas es más crítica que nunca. Frente a este escenario, la empresa de inteligencia artificial Cohere ha lanzado Transcribe, un modelo de reconocimiento de voz de código abierto que promete transformar los flujos de trabajo en empresas, incluidas aquellas dedicadas a la moda y el lujo.

Cohere Transcribe se presenta como una solución diseñada para superar las limitaciones de las APIs cerradas y los modelos abiertos menos precisos. Con un índice de error de palabra (WER, por sus siglas en inglés) promedio del 5,42%, el modelo logra un nivel de exactitud que compite con los líderes del mercado, pero con la ventaja crucial de poder desplegarse en infraestructura propia. Esta característica es especialmente relevante para casas de moda que manejan información sensible, como diseños exclusivos o planes de marketing, y que no pueden arriesgarse a enviar datos a servidores externos.

El modelo, que cuenta con 2.000 millones de parámetros y está licenciado bajo Apache-2.0, admite catorce idiomas, entre ellos español, francés, italiano y alemán, lenguas clave en el panorama de la moda internacional. Su entrenamiento priorizó la reducción del WER sin sacrificar la preparación para entornos de producción, lo que permite integrarlo directamente en automatizaciones basadas en voz, tuberías de transcripción y flujos de trabajo de búsqueda de audio.

Una de las mayores innovaciones de Transcribe radica en su capacidad para operar en instancias locales con una huella de inferencia manejable para GPUs de uso común. Esto elimina los costes recurrentes de APIs comerciales y evita problemas de latencia y residencia de datos. Para las empresas de moda, esto significa poder transcribir en tiempo real los audios de reuniones de diseño, conferencias de prensa o presentaciones de colecciones, manteniendo el control total sobre la información.

En comparación con modelos establecidos, Transcribe ha superado a Whisper de OpenAI (WER del 7,44%) y a ElevenLabs Scribe v2 (5,83%) en el ranking de Hugging Face para modelos de reconocimiento automático de voz. En pruebas específicas, como el conjunto de datos AMI, que evalúa la comprensión de reuniones y diálogos, obtuvo un 8,15%, un resultado que destaca su utilidad para analizar conversaciones complejas, como las que ocurren en equipos creativos o durante negociaciones con proveedores.

Para los equipos de ingeniería que construyen pipelines de recuperación aumentada de generación (RAG, por sus siglas en inglés) o flujos de trabajo de agentes con entradas de audio, Transcribe ofrece una vía para implementar transcripciones de calidad productiva sin las penalizaciones asociadas a APIs cerradas. Esto puede aplicarse, por ejemplo, en la indexación de archivos de audio de archivos históricos de moda, permitiendo búsquedas por voz en colecciones digitalizadas.

Los primeros usuarios han señalado la precisión y la facilidad de despliegue local como los factores diferenciadores, especialmente para organizaciones que han externalizado previamente el procesamiento de audio y ahora buscan internalizarlo. En un contexto donde la privacidad y la agilidad son activos competitivos, esta autonomía tecnológica puede ser un ventaja estratégica.

En definitiva, la irrupción de modelos como Transcribe no solo amplía las opciones técnicas para la transcripción, sino que abre un abanico de posibilidades prácticas para industrias creativas. Para el mundo de la moda, donde la protección de la propiedad intelectual y la optimización de recursos son esenciales, disponer de una herramienta de código abierto, multilingüe y de alto rendimiento podría marcar la diferencia en la forma en que se gestiona y se innova con el contenido sonoro. A medida que la inteligencia artificial se integra más profundamente en los procesos de diseño y comunicación, soluciones que equilibren precisión, control y coste se perfilan como herramientas indispensables para el futuro del sector.

Modelo ASR abierto de Cohere logra 5.4% de error, listo para reemplazar APIs.

¿Qué opinas?

Escrito por Redacción - El Semanal

Deja una respuestaCancelar la respuesta

La última locura de Meta con la IA: clonar a Mark Zuckerberg para que sus empleados lo usen

Los 7 nuevos superhéroes de ‘The Boys’, ordenados por escala de poder

En qué consiste el bloqueo naval impuesto por Trump a Irán en el estrecho de Ormuz que entra en vigor este lunes

Las declaraciones de Donald Trump tras recibir un disparo.

primero el Pentágono, luego el resto del mundo

¿De qué va ‘Los testamentos’?: así es la secuela de ‘El cuento de la criada’, que ya puedes ver en Disney +

Con una ronda de 55 millones de dólares, Pomelo apuesta por llevar su infraestructura financiera a más mercados de la región • Contxto

La chilena Enerlink levanta 3.1 millones de dólares para expandir su modelo de electromovilidad • Contxto

Trump crea ‘God Squad’ para evadir protección de especies en peligro e impulsar crudo

La tendencia de zapatos transparentes llega al F1 de Japón con Anya Taylor-Joy

Con una ronda de 55 millones de dólares, Pomelo apuesta por llevar su infraestructura financiera a más mercados de la región • Contxto

La chilena Enerlink levanta 3.1 millones de dólares para expandir su modelo de electromovilidad • Contxto

La apertura de la App Store en mercados europeos sienta un precedente para Latinoamérica • Contxto

Edtech de aprendizaje de idiomas Preply capta 150 millones de dólares; busca expandirse en Latinoamérica • Contxto

Accion y Bancoagrícola anuncian alianza para promover la inclusión financiera en El Salvador • Contxto

¿Qué opinas?

Deja una respuestaCancelar la respuesta

Log In

With social network:

Or with username:

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Suscríbete a El Semanal