La inteligencia artificial de Tencent convierte texto en sonido realista, generando innovación y debate.

Un nuevo avance en inteligencia artificial y tecnología de audio ha sido presentado por investigadores de la Universidad Johns Hopkins y el Laboratorio de IA de Tencent. Se trata de EzAudio, un innovador modelo generador de texto a audio (T2A) que promete ofrecer efectos de sonido de alta calidad a partir de indicaciones de texto con una eficiencia sin precedentes. Este avance representa un salto significativo en la inteligencia artificial y la tecnología de audio, abordando varios desafíos clave en la generación de audio por IA.

EzAudio opera en el espacio latente de las formas de onda de audio, alejándose del método tradicional de utilizar espectrogramas. «Esta innovación permite una alta resolución temporal al mismo tiempo que elimina la necesidad de un vocoder neural adicional,» señalan los investigadores en su artículo publicado en el sitio web del proyecto.

La arquitectura del modelo, denominada EzAudio-DiT (Diffusion Transformer), incorpora varias innovaciones técnicas para mejorar el rendimiento y la eficiencia. Estas incluyen una nueva técnica de normalización de capa adaptativa llamada AdaLN-SOLA, conexiones de salto largo y la integración de técnicas avanzadas de posicionamiento como RoPE (Rotary Position Embedding).

«Según los investigadores, EzAudio produce muestras de audio altamente realistas, superando a los modelos de código abierto existentes tanto en evaluaciones objetivas como subjetivas. En pruebas comparativas, EzAudio demostró un rendimiento superior en múltiples métricas, incluyendo Distancia de Frechet (FD), divergencia de Kullback-Leibler (KL) y Puntuación de Inception (IS).

El lanzamiento de EzAudio llega en un momento en que el mercado de generación de audio por IA está experimentando un crecimiento rápido. ElevenLabs, un jugador destacado en el campo, recientemente lanzó una aplicación iOS para la conversión de texto a voz, lo que indica un creciente interés del consumidor en herramientas de audio por IA. Mientras tanto, gigantes tecnológicos como Microsoft y Google continúan invirtiendo fuertemente en tecnologías de simulación de voz por IA.

Gartner predice que para 2027, el 40% de las soluciones de IA generativa serán multimodales, combinando capacidades de texto, imagen y audio. Esta tendencia sugiere que modelos como EzAudio, que se centran en la generación de audio de alta calidad, podrían desempeñar un papel crucial en el panorama de la IA en evolución.

Sin embargo, la adopción generalizada de la IA en el lugar de trabajo no está exenta de preocupaciones. Un estudio reciente de Deloitte encontró que casi la mitad de todos los empleados están preocupados por perder sus trabajos a manos de la IA. Paradójicamente, el estudio también reveló que aquellos que utilizan la IA con más frecuencia en el trabajo están más preocupados por la seguridad laboral.

A medida que la generación de audio por IA se vuelve más sofisticada, surgen cuestiones éticas y de uso responsable. La capacidad de generar audio realista a partir de indicaciones de texto plantea preocupaciones sobre un posible mal uso, como la creación de deepfakes o clonación no autorizada de voces.

El equipo de EzAudio ha puesto su código, conjunto de datos y puntos de control del modelo a disposición del público, enfatizando la transparencia y fomentando una mayor investigación en el campo. Este enfoque abierto podría acelerar los avances en la tecnología de audio por IA, al mismo tiempo que permite un escrutinio más amplio de los posibles riesgos y beneficios.

Mirando hacia el futuro, los investigadores sugieren que EzAudio podría tener aplicaciones más allá de la generación de efectos de sonido, incluyendo la producción de voz y música. A medida que la tecnología madura, podría encontrar uso en industrias que van desde el entretenimiento y los medios de comunicación hasta los servicios de accesibilidad y los asistentes virtuales.

EzAudio marca un momento crucial en la generación de audio por IA, ofreciendo una calidad y eficiencia sin precedentes. Sus posibles aplicaciones abarcan desde el entretenimiento, la accesibilidad y los asistentes virtuales. Sin embargo, este avance también amplifica las preocupaciones éticas en torno a los deepfakes y la clonación de voces. A medida que la tecnología de audio por IA avanza rápidamente, el desafío radica en aprovechar su potencial mientras nos resguardamos contra su mal uso. El futuro del sonido está aquí, pero ¿estamos listos para afrontar la música?

La inteligencia artificial de Tencent convierte texto en sonido realista, generando innovación y debate.

¿Qué opinas?

Escrito por Redacción - El Semanal

Deja una respuestaCancelar la respuesta

Las declaraciones de Donald Trump tras recibir un disparo.

Ampliación del servicio de Comunicaciones en Rico con iPhone, llega a más operadoras con la versión beta 3 de iOS 18.

En qué consiste el bloqueo naval impuesto por Trump a Irán en el estrecho de Ormuz que entra en vigor este lunes

Críticos analizan el impacto y méritos de ‘Wicked: For Good’ en la cultura musical

La Unión Europea lanza plan de choque para contener crisis energética por guerra con Irán – Economía

Chile: Kast presenta megarreforma para impulsar inversión rebajando impuestos – Economía

Destacamos las mejores posiciones de Fantasy basketball en liga H2H puntos del 2024-25.

Ciberdelincuentes utilizan truco en Google Chrome para acceder a contraseñas

La Unión Europea lanza plan de choque para contener crisis energética por guerra con Irán – Economía

Chile: Kast presenta megarreforma para impulsar inversión rebajando impuestos – Economía

Teherán cobra peajes en Ormuz, mientras Estados Unidos inspecciona buques con crudo iraní – Economía

Alzas de tiquetes, menos beneficios, cancelaciones… así sortean las aerolíneas la guerra en Irán – Economía

«El mundo vive la peor crisis energética de su historia»: Agencia Internacional de Energía – Economía

¿Qué opinas?

Deja una respuestaCancelar la respuesta

Log In

With social network:

Or with username:

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Suscríbete a El Semanal