Tencent AI presenta Covo-Audio, un modelo de lenguaje de audio que promete revolucionar la interacción conversacional
En un movimiento que podría redefinir los estándares de los sistemas de voz inteligentes, el laboratorio de investigación en inteligencia artificial de Tencent ha liberado al público el código y los pesos de Covo-Audio, un modelo de lenguaje de audio de gran escala (LALM, por sus siglas en inglés) con 7.000 millones de parámetros. Lo distintivo de este desarrollo radica en su arquitectura unificada y de extremo a extremo, capaz de procesar secuencias de audio continuo en tiempo real y generar respuestas sonoras de alta fidelidad, todo ello dentro de un solo marco computacional. Este enfoque elimina la necesidad de encadenar sistemas separados de reconocimiento de voz (ASR), modelos de lenguaje (LLM) y síntesis de voz (TTS), un avance que teóricamente reduce los errores acumulativos y la pérdida de información semántica entre etapas.
La arquitectura de Covo-Audio se sostiene sobre cuatro pilares técnicos interconectados. En primer lugar, un codificador de audio basado en Whisper-large-v3, elegido por su robustness ante ruido ambiental y acentos variados, que opera a una frecuencia de 50 Hz. A continuación, un adaptador de audio especializado que reduce la tasa de frames mediante módulos de submuestreo, combinando capas lineales y convolucionales para pasar de 50 Hz a 6.25 Hz, facilitando la integración con el núcleo del modelo. El corazón del sistema es un modelo de lenguaje base Qwen2.5-7B-Base, adaptado para manejar secuencias intercaladas de características acústicas y tokens de texto. Por último, un tokenizador y decodificador de voz que utiliza WavLM-large con un codebook de 16.384 elementos para crear tokens de audio discretos a 25 Hz, y un vocoder BigVGAN con marco de Flow-Matching para reconstruir formas de onda de 24 kHz.
Una de las innovaciones más significativas reside en su estrategia de interleaving tri-modal jerárquico. Mientras los métodos tradicionales se limitan a alinear texto con audio a nivel de palabra o carácter, Covo-Audio sincroniza tres flujos de datos: las características acústicas continuas, los tokens de habla discretos y el texto natural. El modelo implementa dos patrones de integración: uno secuencial, donde los elementos fluyen en el orden características -> texto -> tokens discretos; y otro paralelo, donde las características acústicas se alinean con una unidad combinada de texto y tokens discretos. Este enfoque jerárquico, que opera tanto a nivel de frase como de oración, permite preservar la coherencia semántica global en discursos largos mientras captura matices prosódicos finos. El entrenamiento requirió un pipeline en dos fases con un total de 2 billones de tokens procesados.
Otro aporte crucial es la técnica de desacoplamiento entre inteligencia y voz del hablante (Intelligence-Speaker Decoupling). Construir grandes conjuntos de datos de diálogo para voces específicas es costoso. Esta estrategia separa la capacidad de razonamiento del modelo de las características vocales particulares, permitiendo personalizar la voz del asistente con grabaciones de texto a voz (TTS) de alta calidad pero mínimas. El truco consiste en reformular estas grabaciones como conversaciones pseudo-etiquetadas y aplicar una pérdida de texto enmascarado durante el ajuste, de modo que el modelo retiene sus habilidades de razonamiento mientras adopta la naturalidad de la voz de TTS elegida, sin necesidad de miles de horas de diálogo speaker-specific.
La evolución hacia la interacción conversacional bidireccional completa dio lugar a Covo-Audio-Chat-FD. Esta variante soporta comunicación dúplex total, donde el modelo y el usuario pueden hablar simultáneamente. El codificador de audio se transforma para trabajar en modo de streaming por fragmentos, y los flujos de usuario y modelo se intercalan en una relación 1:4. Cada fragmento representa 160 milisegundos de audio. Para gestionar los estados de la conversación, el sistema introduce tokens arquitectónicos específicos: THINK (estado de escucha pura mientras el modelo procesa), SHIFT (transición al turno de habla del modelo) y BREAK (detección de interrupciones del usuario, forzando al modelo a detenerse y escuchar de nuevo). En escenarios multirronda, emplea una estrategia recursiva de llenado de contexto, Prefixando las características acústicas de la entrada del usuario y los tokens generados en turnos previos.
Para potenciar el razonamiento complejo, el modelo incorpora Chain-of-Thought (CoT) y el algoritmo de optimización Group Relative Policy Optimization (GRPO). La función de recompensa compuesta y verificable optimizationiza simultáneamente la precisión de la respuesta (R_accuracy), la adherencia al formato estructurado (R_format), la coherencia lógica (R_consistency) y la profundidad del razonamiento (R_thinking).
En las pruebas de evaluación, Covo-Audio (7B) muestra resultados competitivos o superiores en varios benchmarks, especialmente destacando en tareas de comprensión audio-visual. En el benchmark MMAU, logró una puntuación media del 75,30%, la más alta entre los modelos de escala 7B comparados, con un 76,05% en comprensión musical. En MMSU, alcanzó un 66,64% de precisión media. Sus variantes conversacionales, como Covo-Audio-Chat, sobresalieron en URO-Bench (razonamiento y diálogo hablado), superando a sistemas como Qwen3-Omni en la pista china. En el benchmark VStyle de interacción empática, consiguió resultados de vanguardia en mandarín para emociones como ira (4,89), tristeza (4,93) y ansiedad (5,00). No obstante, los investigadores señalan un problema de «respuesta temprana» en el escenario full-duplex de GaokaoEval, donde pausas silenciosas inusualmente largas entre fragmentos de voz pueden desencadenar respuestas prematuras del modelo. Identifican esto como un área crítica para optimización futura.
En términos de eficiencia paramétrica, Covo-Audio demuestra que un modelo de tamaño compacto puede competir con sistemas mucho mayores (incluso de 32B parámetros) en tareas clave de comprensión auditiva y del habla. Su arquitectura end-to-end, su estrategia de fusión multimodal y su capacidad para personalizar la voz con datos mínimos la posicionan como una herramienta potentepara el desarrollo de asistentes conversacionales, sistemas de atención al cliente y aplicaciones de accesibilidad. El código, los modelos y la documentación están disponibles en sus repositorios oficiales, lo que sin duda acelerará la investigación en interfaces de voz natural para múltiples industrias.



GIPHY App Key not set. Please check settings