Meta lanza TRIBE v2, modelo que predice fMRI en video, audio y texto

Un salto cuántico en neurociencia: el modelo TRIBE v2 descifra la mente humana a través de vídeo, sonido y texto

En un avance que redefine los límites de la neurociencia computacional, un equipo de investigadores ha presentado TRIBE v2, un sistema de inteligencia artificial capaz de predecir con notable precisión la actividad cerebral registrada mediante resonancia magnética funcional (fMRI) frente a estímulos naturales que combinan imágenes en movimiento, audio y lenguaje. Esta herramienta, desarrollada con una arquitectura pionera, no solo supera a los métodos estadísticos clásicos, sino que abre la puerta a experimentos cerebrales virtuales, reducir la necesidad de pruebas invasivas y, potencialmente, transformar campos tan diversos como la psicología clínica, el diseño de experiencias inmersivas o incluso la comprensión de la respuesta emocional a productos y tendencias.

A diferencia de los modelos tradicionales que analizan cada tipo de estímulo por separado, TRIBE v2 integra tres modalidades sensoriales en una única representación computacional. Para lograrlo, utiliza como base tres redes neuronales profundas especializadas, previamente entrenadas en tareas masivas de percepción artificial: una para procesar el lenguaje, otra para el vídeo y una tercera para el sonido. Cada una de ellas extrae características relevantes de su dominio —por ejemplo, el contexto semántico en el texto o el movimiento en las imágenes— y las sincroniza en una escala temporal común. A continuación, un transformador —una arquitectura de red neuronal particularmente eficaz para secuencias— fusiona esta información a lo largo de ventanas de hasta 100 segundos, capturando la integración natural que ocurre en el cerebro cuando observamos una escena o escuchamos una conversación.

El verdadero reto en este tipo de estudios es la escasez de datos. Obtener registros de fMRI de alta calidad es costoso, lento y requiere voluntarios dispuestos a permanecer inmóviles en un escáner durante horas. Para superar esta barrera, los científicos entrenaron TRIBE v2 con más de 450 horas de datos procedentes de 25 personas expuestas a películas, podcasts y vídeos silenciosos en condiciones naturalistas. Posteriormente, lo evaluaron con un conjunto aún mayor: más de 1.100 horas distribuidas entre 720 individuos. Un hallazgo clave es que el rendimiento del modelo mejora de forma logarítmica con cada incremento de datos, sin visos de estabilizarse. Esto sugiere que, a medida que los consorcios internacionales compartan más bases de datos de neuroimagen, la capacidad predictiva de estos sistemas crecerá sustancialmente.

Los resultados son elocuentes. En comparación con los modelos de respuesta impulsional finita (FIR), considerados el estándar de oro durante décadas para la codificación de vóxeles cerebrales, TRIBE v2 reduce significativamente el error de predicción. Pero su capacidad más asombrosa reside en la generalización. El modelo puede predecir la respuesta promedio de un grupo de personas completamente nuevas, sin haber sido expuesto a sus datos individuales durante el entrenamiento. En un conjunto de datos de alta resolución, la correlación entre lo predicho por TRIBE v2 y la actividad cerebral real del grupo supera en un 200% la predictividad del cerebro de un sujeto medio del mismo grupo. Es decir, la simulación computacional del sistema ofrece una visión más fiable de la respuesta típica que el registro de un individuo concreto.

Esta propiedad permite lo que los investigadores denominan «neurociencia in silico»: la possibility de realizar experimentos virtuales. Al应用到 un conjunto de datos de mapeo cerebral individual, el modelo fue capaz de redescubrir, sin supervisión directa, áreas funcionales emblemáticas. Localizó con precisión el área facial fusiforme (FFA), especializada en reconocer rostros, y el área del lugar parahippocampal (PPA), clave para procesar escenarios. También identificó el surco temporal superior, vinculado al lenguaje, y áreas de Broca relacionadas con la sintaxis. Sorprendentemente, al analizar las representaciones internas de la última capa del modelo, estas se organizaron espontáneamente en cinco redes funcionales mayores ya conocidas en la literatura: la auditiva primaria, la del lenguaje, la del movimiento, la red por defecto y la visual. Esta emergencia de estructuras biológicamente interpretables en una «caja negra» de IA ofrece una nueva vía para comprender los principios de organización del cerebro.

Para los profesionales de campos aplicados, esta tecnología promete ser un instrumento de optimización. Con tan solo una hora de datos de un nuevo participante, un ajuste fino del modelo multiplica por cuatro su precisión frente a modelos lineales entrenados desde cero. Esto abarata enormemente los estudios piloto, permite pre-screening de estímulos (por ejemplo, anuncios, interfaces o diseños de producto) antes de invertir en pruebas neurofisiológicas costosas, y facilitaría estudios sobre poblaciones clínicas donde la recopilación de datos es especialmente delicada.

El código, los pesos del modelo y una demostración interactiva están disponibles en abierto, lo que invita a la comunidad científica a explorar sus limitaciones y aplicaciones. Más allá de la pura curiosidad académica, TRIBE v2 sienta las bases para un futuro donde la simulación cerebral a gran escala sea una herramienta estándar. Su impacto podría extenderse a la enseñanza, la psiquiatría o, por qué no, a la creación de experiencias multimedia que se adapten en tiempo real a la respuesta neurológica del usuario, un horizonte que entusiasma tanto a científicos como a innovadores de la industria.

En un mundo donde la inteligencia artificial ya imita la visión o el lenguaje, TRIBE v2 da un paso decisivo hacia la comprensión integrada de la mente. Su capacidad para unir sentidos, tiempo y significado en un único espacio predictivo no solo valida décadas de investigación en neuroimagen, sino que señala un nuevo camino: el de explorar el cerebro no solo como un órgano que reacciona, sino como un sistema que constantemente sintetiza el flujo multisensorial de la realidad. Para la sociedad, esto podría traducir sea en tratamientos más personalizados para trastornos neurológicos, sea en tecnologías que dialoguen con nosotros de forma más natural. El viaje hacia la mente digital acaba de accelerate.

Meta lanza TRIBE v2, modelo que predice fMRI en video, audio y texto

¿Qué opinas?

Escrito por Redacción - El Semanal

Deja una respuestaCancelar la respuesta

Cegid reúne a 450 profesionales para debatir el impacto de la IA en la gestión del talento

producción en masa en el primer semestre de 2027, chip MediaTek personalizado y 30 millones de unidades proyectadas

En qué consiste el bloqueo naval impuesto por Trump a Irán en el estrecho de Ormuz que entra en vigor este lunes

Las declaraciones de Donald Trump tras recibir un disparo.

primero el Pentágono, luego el resto del mundo

¿De qué va ‘Los testamentos’?: así es la secuela de ‘El cuento de la criada’, que ya puedes ver en Disney +

El año de la inteligencia artificial y las mega-rondas de inversión • Contxto

VelaFi levanta Serie B superior a los 20 millones de dólares en medio del auge de stablecoins • Contxto

Visa moderniza sus sistemas de pago para transacciones autónomas con IA

Director de ‘Drama’ desata polémica con ensayo sobre romance intergeneracional

El año de la inteligencia artificial y las mega-rondas de inversión • Contxto

VelaFi levanta Serie B superior a los 20 millones de dólares en medio del auge de stablecoins • Contxto

Jeeves acelera su expansión en México y refuerza su apuesta por la automatización financiera • Contxto

La colombiana Monet levanta 24 millones de dólares y proyecta expandirse a otros mercados • Contxto

los grandes retos del sector en México • Contxto

¿Qué opinas?

Deja una respuestaCancelar la respuesta

Log In

With social network:

Or with username:

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Suscríbete a El Semanal