En el campo de la inteligencia artificial, los modelos de lenguaje de gran escala (LLMs) han experimentado avances significativos en los últimos tiempos. No obstante, comprender cómo funcionan sigue siendo un desafío para los investigadores en los laboratorios de inteligencia artificial.
Una aproximación prometedora que ha llamado la atención es la utilización de autoencoders dispersos (SAE, por sus siglas en inglés), una arquitectura de aprendizaje profundo que descompone las complejas activaciones de una red neuronal en componentes más pequeños y comprensibles que pueden asociarse con conceptos legibles por humanos.
En un nuevo documento, investigadores de Google DeepMind presentan JumpReLU SAE, una nueva arquitectura que mejora el rendimiento y la interpretabilidad de los SAE para los LLMs. JumpReLU facilita la identificación y seguimiento de características individuales en las activaciones de los LLMs, lo que puede ser un paso hacia la comprensión de cómo los LLMs aprenden y razonan.

El desafío de interpretar LLMs radica en que los bloques fundamentales de una red neuronal son las neuronas individuales, pequeñas funciones matemáticas que procesan y transforman datos. Durante el entrenamiento, las neuronas se ajustan para activarse cuando encuentran patrones específicos en los datos. Sin embargo, una única neurona puede activarse para miles de conceptos diferentes, lo que dificulta comprender qué representa cada neurona y cómo contribuye al comportamiento general del modelo.
Este problema se agrava en los LLMs, que tienen miles de millones de parámetros y se entrenan en conjuntos de datos masivos. Como resultado, los patrones de activación de las neuronas en los LLMs son extremadamente complejos y difíciles de interpretar.
Los SAEs ofrecen una solución al utilizar una función de activación para imponer la dispersión en su capa intermedia. El SAE JumpReLU, desarrollado por DeepMind, aborda las limitaciones de las técnicas anteriores al realizar un pequeño cambio en la función de activación. En lugar de usar un valor de umbral global, JumpReLU puede determinar valores de umbral separados para cada neurona en el vector de características dispersas.
Los investigadores evaluaron el rendimiento de JumpReLU SAE en el LLM Gemma 2 9B de DeepMind. Compararon su desempeño con otras dos arquitecturas de SAE de última generación, la propia Gated SAE de DeepMind y la TopK SAE de OpenAI. Los resultados demostraron que, en diferentes niveles de dispersión, la fidelidad de construcción de JumpReLU SAE supera a la de Gated SAE y es al menos tan buena como la de TopK SAE.
Además, JumpReLU SAE resultó eficaz para minimizar las «características inactivas» que nunca se activan, así como aquellas que son demasiado activas y no proporcionan una señal sobre conceptos específicos que el LLM ha aprendido. Este enfoque puede contribuir significativamente a la comprensión y dirección del comportamiento de los LLMs, abriendo la puerta al desarrollo de técnicas para mitigar sesgos y toxicidad en su funcionamiento.
En resumen, los SAEs representan una vía precisa y eficiente para descomponer las activaciones de los LLMs y ayudar a los investigadores a identificar y comprender las características que estos utilizan para procesar y generar lenguaje. Este enfoque puede facilitar el desarrollo de técnicas para direccionar el comportamiento de los LLMs en direcciones deseadas y abordar algunas de sus limitaciones. La investigación en torno a las activaciones de los LLMs ha cobrado relevancia y promete revelar aún más hallazgos en el futuro.

GIPHY App Key not set. Please check settings