in

Meta lanza TRIBE v2, modelo que predice fMRI en video, audio y texto

Un salto cuántico en neurociencia: el modelo TRIBE v2 descifra la mente humana a través de vídeo, sonido y texto

En un avance que redefine los límites de la neurociencia computacional, un equipo de investigadores ha presentado TRIBE v2, un sistema de inteligencia artificial capaz de predecir con notable precisión la actividad cerebral registrada mediante resonancia magnética funcional (fMRI) frente a estímulos naturales que combinan imágenes en movimiento, audio y lenguaje. Esta herramienta, desarrollada con una arquitectura pionera, no solo supera a los métodos estadísticos clásicos, sino que abre la puerta a experimentos cerebrales virtuales, reducir la necesidad de pruebas invasivas y, potencialmente, transformar campos tan diversos como la psicología clínica, el diseño de experiencias inmersivas o incluso la comprensión de la respuesta emocional a productos y tendencias.

A diferencia de los modelos tradicionales que analizan cada tipo de estímulo por separado, TRIBE v2 integra tres modalidades sensoriales en una única representación computacional. Para lograrlo, utiliza como base tres redes neuronales profundas especializadas, previamente entrenadas en tareas masivas de percepción artificial: una para procesar el lenguaje, otra para el vídeo y una tercera para el sonido. Cada una de ellas extrae características relevantes de su dominio —por ejemplo, el contexto semántico en el texto o el movimiento en las imágenes— y las sincroniza en una escala temporal común. A continuación, un transformador —una arquitectura de red neuronal particularmente eficaz para secuencias— fusiona esta información a lo largo de ventanas de hasta 100 segundos, capturando la integración natural que ocurre en el cerebro cuando observamos una escena o escuchamos una conversación.

El verdadero reto en este tipo de estudios es la escasez de datos. Obtener registros de fMRI de alta calidad es costoso, lento y requiere voluntarios dispuestos a permanecer inmóviles en un escáner durante horas. Para superar esta barrera, los científicos entrenaron TRIBE v2 con más de 450 horas de datos procedentes de 25 personas expuestas a películas, podcasts y vídeos silenciosos en condiciones naturalistas. Posteriormente, lo evaluaron con un conjunto aún mayor: más de 1.100 horas distribuidas entre 720 individuos. Un hallazgo clave es que el rendimiento del modelo mejora de forma logarítmica con cada incremento de datos, sin visos de estabilizarse. Esto sugiere que, a medida que los consorcios internacionales compartan más bases de datos de neuroimagen, la capacidad predictiva de estos sistemas crecerá sustancialmente.

Los resultados son elocuentes. En comparación con los modelos de respuesta impulsional finita (FIR), considerados el estándar de oro durante décadas para la codificación de vóxeles cerebrales, TRIBE v2 reduce significativamente el error de predicción. Pero su capacidad más asombrosa reside en la generalización. El modelo puede predecir la respuesta promedio de un grupo de personas completamente nuevas, sin haber sido expuesto a sus datos individuales durante el entrenamiento. En un conjunto de datos de alta resolución, la correlación entre lo predicho por TRIBE v2 y la actividad cerebral real del grupo supera en un 200% la predictividad del cerebro de un sujeto medio del mismo grupo. Es decir, la simulación computacional del sistema ofrece una visión más fiable de la respuesta típica que el registro de un individuo concreto.

Esta propiedad permite lo que los investigadores denominan «neurociencia in silico»: la possibility de realizar experimentos virtuales. Al应用到 un conjunto de datos de mapeo cerebral individual, el modelo fue capaz de redescubrir, sin supervisión directa, áreas funcionales emblemáticas. Localizó con precisión el área facial fusiforme (FFA), especializada en reconocer rostros, y el área del lugar parahippocampal (PPA), clave para procesar escenarios. También identificó el surco temporal superior, vinculado al lenguaje, y áreas de Broca relacionadas con la sintaxis. Sorprendentemente, al analizar las representaciones internas de la última capa del modelo, estas se organizaron espontáneamente en cinco redes funcionales mayores ya conocidas en la literatura: la auditiva primaria, la del lenguaje, la del movimiento, la red por defecto y la visual. Esta emergencia de estructuras biológicamente interpretables en una «caja negra» de IA ofrece una nueva vía para comprender los principios de organización del cerebro.

Para los profesionales de campos aplicados, esta tecnología promete ser un instrumento de optimización. Con tan solo una hora de datos de un nuevo participante, un ajuste fino del modelo multiplica por cuatro su precisión frente a modelos lineales entrenados desde cero. Esto abarata enormemente los estudios piloto, permite pre-screening de estímulos (por ejemplo, anuncios, interfaces o diseños de producto) antes de invertir en pruebas neurofisiológicas costosas, y facilitaría estudios sobre poblaciones clínicas donde la recopilación de datos es especialmente delicada.

El código, los pesos del modelo y una demostración interactiva están disponibles en abierto, lo que invita a la comunidad científica a explorar sus limitaciones y aplicaciones. Más allá de la pura curiosidad académica, TRIBE v2 sienta las bases para un futuro donde la simulación cerebral a gran escala sea una herramienta estándar. Su impacto podría extenderse a la enseñanza, la psiquiatría o, por qué no, a la creación de experiencias multimedia que se adapten en tiempo real a la respuesta neurológica del usuario, un horizonte que entusiasma tanto a científicos como a innovadores de la industria.

En un mundo donde la inteligencia artificial ya imita la visión o el lenguaje, TRIBE v2 da un paso decisivo hacia la comprensión integrada de la mente. Su capacidad para unir sentidos, tiempo y significado en un único espacio predictivo no solo valida décadas de investigación en neuroimagen, sino que señala un nuevo camino: el de explorar el cerebro no solo como un órgano que reacciona, sino como un sistema que constantemente sintetiza el flujo multisensorial de la realidad. Para la sociedad, esto podría traducir sea en tratamientos más personalizados para trastornos neurológicos, sea en tecnologías que dialoguen con nosotros de forma más natural. El viaje hacia la mente digital acaba de accelerate.

¿Qué opinas?

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Visa moderniza sus sistemas de pago para transacciones autónomas con IA

Director de ‘Drama’ desata polémica con ensayo sobre romance intergeneracional