La seguridad en los modelos de inteligencia artificial (IA) es un tema cada vez más relevante, especialmente para las empresas que planean implementar agentes de IA en sus operaciones. Dos de los principales proveedores de modelos de IA, Anthropic y OpenAI, han estado trabajando en mejorar la seguridad y robustez de sus modelos, pero sus enfoques difieren significativamente.
Anthropic ha publicado una tarjeta de sistema de 153 páginas para su modelo Claude Opus 4.5, que detalla su enfoque en la seguridad y la evaluación de riesgos. Por otro lado, OpenAI ha lanzado una tarjeta de sistema de 60 páginas para su modelo GPT-5, que se centra en la mejora continua y la transparencia.
La evaluación de la seguridad de los modelos de IA es un desafío complejo, ya que implica simular ataques y medir la capacidad del modelo para resistirlos. Anthropic utiliza un enfoque de campañas de refuerzo de aprendizaje (RL) con 200 intentos, lo que les permite evaluar la resistencia del modelo bajo presión sostenida. OpenAI, por otro lado, se enfoca en métricas de un solo intento y en la mejora iterativa.
Los resultados de estas evaluaciones muestran que ambos modelos tienen fortalezas y debilidades. El modelo Claude Opus 4.5 de Anthropic demostró una resistencia significativamente mayor a los ataques en entornos de codificación, con una tasa de éxito de ataques (ASR) del 4,7% en un intento y del 63% en 100 intentos. En cambio, el modelo GPT-5 de OpenAI mostró una ASR del 89% en ataques iniciales, pero esta tasa disminuyó drásticamente después de parcheos y actualizaciones.
La detección de la deception es otro aspecto crucial en la evaluación de la seguridad de los modelos de IA. Anthropic monitorea aproximadamente 10 millones de características neurales internas durante la evaluación, lo que les permite detectar patrones de deception y otros riesgos de seguridad. OpenAI, por otro lado, utiliza un enfoque de monitoreo de cadena de pensamiento (CoT), que analiza las cadenas de razonamiento del modelo para detectar posibles engaños.
Las diferencias en los enfoques de seguridad de Anthropic y OpenAI resaltan la importancia de comprender las prioridades y metodologías de cada proveedor. Las empresas que implementan modelos de IA deben considerar cuidadosamente qué enfoque se alinea mejor con sus necesidades y riesgos específicos.
Para tomar decisiones informadas, los equipos de seguridad deben hacer preguntas específicas a los proveedores sobre sus metodologías de evaluación, como la tasa de éxito de ataques en diferentes escenarios, la detección de deception y la conciencia de la evaluación. También es fundamental comprender cómo los proveedores abordan la mejora continua y la transparencia en sus modelos.
En última instancia, la seguridad en los modelos de IA es un desafío en constante evolución. Los proveedores deben trabajar juntos para establecer estándares comunes y compartir información sobre sus enfoques de seguridad. Mientras tanto, las empresas deben mantenerse informadas y evaluar cuidadosamente las opciones disponibles para asegurarse de que están implementando soluciones de IA seguras y confiables.



GIPHY App Key not set. Please check settings