La inteligencia artificial de Tencent convierte texto en sonido realista, generando innovación y debate.

Un nuevo avance en inteligencia artificial y tecnología de audio ha sido presentado por investigadores de la Universidad Johns Hopkins y el Laboratorio de IA de Tencent. Se trata de EzAudio, un innovador modelo generador de texto a audio (T2A) que promete ofrecer efectos de sonido de alta calidad a partir de indicaciones de texto con una eficiencia sin precedentes. Este avance representa un salto significativo en la inteligencia artificial y la tecnología de audio, abordando varios desafíos clave en la generación de audio por IA.

EzAudio opera en el espacio latente de las formas de onda de audio, alejándose del método tradicional de utilizar espectrogramas. «Esta innovación permite una alta resolución temporal al mismo tiempo que elimina la necesidad de un vocoder neural adicional,» señalan los investigadores en su artículo publicado en el sitio web del proyecto.

La arquitectura del modelo, denominada EzAudio-DiT (Diffusion Transformer), incorpora varias innovaciones técnicas para mejorar el rendimiento y la eficiencia. Estas incluyen una nueva técnica de normalización de capa adaptativa llamada AdaLN-SOLA, conexiones de salto largo y la integración de técnicas avanzadas de posicionamiento como RoPE (Rotary Position Embedding).

«Según los investigadores, EzAudio produce muestras de audio altamente realistas, superando a los modelos de código abierto existentes tanto en evaluaciones objetivas como subjetivas. En pruebas comparativas, EzAudio demostró un rendimiento superior en múltiples métricas, incluyendo Distancia de Frechet (FD), divergencia de Kullback-Leibler (KL) y Puntuación de Inception (IS).

El lanzamiento de EzAudio llega en un momento en que el mercado de generación de audio por IA está experimentando un crecimiento rápido. ElevenLabs, un jugador destacado en el campo, recientemente lanzó una aplicación iOS para la conversión de texto a voz, lo que indica un creciente interés del consumidor en herramientas de audio por IA. Mientras tanto, gigantes tecnológicos como Microsoft y Google continúan invirtiendo fuertemente en tecnologías de simulación de voz por IA.

Gartner predice que para 2027, el 40% de las soluciones de IA generativa serán multimodales, combinando capacidades de texto, imagen y audio. Esta tendencia sugiere que modelos como EzAudio, que se centran en la generación de audio de alta calidad, podrían desempeñar un papel crucial en el panorama de la IA en evolución.

Sin embargo, la adopción generalizada de la IA en el lugar de trabajo no está exenta de preocupaciones. Un estudio reciente de Deloitte encontró que casi la mitad de todos los empleados están preocupados por perder sus trabajos a manos de la IA. Paradójicamente, el estudio también reveló que aquellos que utilizan la IA con más frecuencia en el trabajo están más preocupados por la seguridad laboral.

A medida que la generación de audio por IA se vuelve más sofisticada, surgen cuestiones éticas y de uso responsable. La capacidad de generar audio realista a partir de indicaciones de texto plantea preocupaciones sobre un posible mal uso, como la creación de deepfakes o clonación no autorizada de voces.

El equipo de EzAudio ha puesto su código, conjunto de datos y puntos de control del modelo a disposición del público, enfatizando la transparencia y fomentando una mayor investigación en el campo. Este enfoque abierto podría acelerar los avances en la tecnología de audio por IA, al mismo tiempo que permite un escrutinio más amplio de los posibles riesgos y beneficios.

Mirando hacia el futuro, los investigadores sugieren que EzAudio podría tener aplicaciones más allá de la generación de efectos de sonido, incluyendo la producción de voz y música. A medida que la tecnología madura, podría encontrar uso en industrias que van desde el entretenimiento y los medios de comunicación hasta los servicios de accesibilidad y los asistentes virtuales.

EzAudio marca un momento crucial en la generación de audio por IA, ofreciendo una calidad y eficiencia sin precedentes. Sus posibles aplicaciones abarcan desde el entretenimiento, la accesibilidad y los asistentes virtuales. Sin embargo, este avance también amplifica las preocupaciones éticas en torno a los deepfakes y la clonación de voces. A medida que la tecnología de audio por IA avanza rápidamente, el desafío radica en aprovechar su potencial mientras nos resguardamos contra su mal uso. El futuro del sonido está aquí, pero ¿estamos listos para afrontar la música?

¿Qué opinas?

120 Votos
Upvote Downvote

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Destacamos las mejores posiciones de Fantasy basketball en liga H2H puntos del 2024-25.

Ciberdelincuentes utilizan truco en Google Chrome para acceder a contraseñas