La seguridad en los modelos de lenguaje de gran escala (LLM) es un tema que ha cobrado importancia en los últimos tiempos, especialmente con la implementación de técnicas como la Generación Aumentada por Recuperación (RAG). Esta técnica se diseñó para mejorar la precisión de los modelos de inteligencia artificial (IA) proporcionando contenido fundamentado. Sin embargo, investigaciones recientes publicadas por Bloomberg revelan un efecto secundario no deseado: RAG puede hacer que los LLM sean menos seguros.
Según el estudio, cuando se utiliza RAG, los modelos que normalmente se niegan a responder a consultas perjudiciales en entornos estándar a menudo producen respuestas inseguras. Por ejemplo, el modelo Llama-3-8B vio un aumento en sus respuestas inseguras del 0,3% al 9,2% cuando se implementó RAG. Esto sugiere que la integración de RAG puede interactuar de manera inesperada con los sistemas de seguridad de los modelos, llevándolos a proporcionar información peligrosa.
El equipo de investigación de Bloomberg evaluó once LLM populares, incluidos Claude-3.5-Sonnet, Llama-3-8B y GPT-4o. Los resultados contradicen la creencia convencional de que RAG hace que los sistemas de IA sean inherentemente más seguros. En su lugar, se encontró que los modelos equipados con RAG pueden eludir las salvaguardias tradicionales, respondiendo a consultas maliciosas incluso cuando los documentos recuperados son seguros.

Para abordar estos riesgos, Bloomberg también presentó una taxonomía especializada de riesgos de contenido de IA para servicios financieros. Esta taxonomía aborda preocupaciones específicas del sector, como la mala conducta financiera, la divulgación confidencial y las narrativas contrafácticas. Los investigadores demostraron empíricamente que los sistemas de seguridad existentes no detectan estos riesgos especializados.
Los expertos enfatizan que las organizaciones deben desarrollar taxonomías de riesgos específicas para su industria y casos de uso. La investigación destaca la necesidad de una reevaluación fundamental de la arquitectura de seguridad en las implementaciones de RAG. Los líderes deben diseñar sistemas de seguridad integrados que anticipen cómo el contenido recuperado podría interactuar con las salvaguardias del modelo.
En última instancia, la investigación de Bloomberg subraya la importancia de la transparencia y la responsabilidad en el desarrollo y la implementación de la IA. A medida que la IA se integra en flujos de trabajo críticos, este enfoque transforma la seguridad de un ejercicio de cumplimiento en un diferenciador competitivo que los clientes y los reguladores esperarán.
La lección clave de esta investigación es que las organizaciones deben ser conscientes de estos problemas potenciales, medirlos y desarrollar salvaguardias específicas para sus aplicaciones. Solo así podrán garantizar la seguridad y la eficacia de sus sistemas de IA en un entorno cada vez más complejo y exigente.
«

GIPHY App Key not set. Please check settings