El mundo de los modelos de lenguaje ha experimentado avances significativos en los últimos años, con la capacidad de generar texto, traducir idiomas y crear contenido creativo de diversas formas. A pesar de estos logros, comprender el funcionamiento interno de estos modelos, como Gemma 2, sigue siendo un desafío para los investigadores que los entrenan.
La falta de interpretabilidad plantea problemas al utilizar estos modelos en aplicaciones críticas que requieren transparencia y precisión. Para abordar este desafío, Google DeepMind ha lanzado Gemma Scope, un nuevo conjunto de herramientas que arroja luz sobre el proceso de toma de decisiones de los modelos Gemma 2.
Gemma Scope se basa en los codificadores automáticos dispersos JumpReLU (SAEs), una arquitectura de aprendizaje profundo propuesta recientemente por DeepMind. Estos SAEs permiten interpretar las activaciones de los modelos de lenguaje mediante el análisis de las diferentes capas, lo que se conoce como «interpretabilidad mecanística».

Cuando un modelo de lenguaje recibe una entrada, la procesa a través de una red compleja de neuronas artificiales. Estas activaciones, es decir, los valores emitidos por las neuronas, representan la comprensión del modelo sobre la entrada y guían su respuesta. Estudiar estas activaciones permite a los investigadores comprender cómo procesan la información los modelos de lenguaje y cómo toman decisiones.
Gemma Scope ofrece más de 400 SAEs para cada capa y subcapa de los modelos Gemma 2 2B y 9B de DeepMind, lo que representa más de 30 millones de características aprendidas. Esta herramienta permitirá a los investigadores estudiar cómo evolucionan y se relacionan las diferentes características a lo largo de las capas del modelo, proporcionando una comprensión más profunda de su proceso de toma de decisiones.
El uso de la arquitectura JumpReLU en Gemma Scope permite que los SAEs aprendan un umbral de activación diferente para cada característica, lo que facilita la identificación de las características más importantes y mejora la fidelidad de la reconstrucción. Esto ayuda a mantener la interpretación de las activaciones en un nivel comprensible y a balancear la detección de las características presentes con la estimación de su fuerza.
En un contexto donde los modelos de lenguaje son ampliamente adoptados en aplicaciones empresariales, herramientas como Gemma Scope se vuelven vitales para comprender y controlar el comportamiento de estos modelos. La investigación en interpretabilidad tiene el potencial de desarrollar sistemas más sólidos, mejorar la seguridad contra comportamientos no deseados y mitigar riesgos de agentes de IA autónomos.
Además de DeepMind, compañías como Anthropic y OpenAI también están trabajando en investigaciones con SAEs y han publicado múltiples estudios en los últimos meses. Asimismo, se están explorando técnicas no mecanísticas para comprender mejor el funcionamiento interno de los modelos de lenguaje, como el emparejamiento de modelos para verificar las respuestas entre ellos.
La liberación de Gemma Scope representa un avance significativo en la comprensión y control de los modelos de lenguaje, abriendo nuevas posibilidades para un uso más seguro y eficaz de la inteligencia artificial en diversas aplicaciones.

GIPHY App Key not set. Please check settings