in

DeepMind y Hugging Face lanzan SynthID para proteger texto generado por IA

Google DeepMind y Hugging Face han lanzado recientemente SynthID Text, una herramienta para marcar y detectar texto generado por grandes modelos de lenguaje (LLMs). SynthID Text codifica una marca de agua en el texto generado por inteligencia artificial de manera que ayuda a determinar si un LLM específico lo produjo. Lo más importante es que lo hace sin modificar el funcionamiento subyacente del LLM o reducir la calidad del texto generado.

La técnica detrás de SynthID Text fue desarrollada por investigadores de DeepMind y presentada en un artículo publicado en Nature el 23 de octubre. Una implementación de SynthID Text ha sido añadida a la biblioteca Transformers de Hugging Face, la cual se utiliza para crear aplicaciones basadas en LLMs. Es importante destacar que SynthID no está diseñado para detectar cualquier texto generado por un LLM. Su objetivo es marcar la salida para un LLM específico.

El uso de SynthID no requiere reentrenar el LLM subyacente. Utiliza un conjunto de parámetros que pueden configurar el equilibrio entre la fuerza de la marca de agua y la preservación de la respuesta. Una empresa que utilice LLMs puede tener diferentes configuraciones de marca de agua para diferentes modelos. Estas configuraciones deben almacenarse de forma segura y privada para evitar que sean replicadas por otros.

Para cada configuración de marca de agua, es necesario entrenar un modelo clasificador que tome una secuencia de texto y determine si contiene la marca de agua del modelo o no. Los detectores de marca de agua pueden entrenarse con unos pocos miles de ejemplos de texto normal y respuestas que hayan sido marcadas con la configuración especificada.

La forma en que funciona SynthID Text

La marca de agua es un área activa de investigación, especialmente con el aumento y la adopción de LLMs en diferentes campos y aplicaciones. Las empresas e instituciones buscan formas de detectar texto generado por IA para prevenir campañas masivas de desinformación, moderar contenido generado por IA y evitar el uso de herramientas de IA en educación.

Existen varias técnicas para marcar texto generado por LLMs, cada una con sus limitaciones. Algunas requieren la recolección y almacenamiento de información sensible, mientras que otras necesitan un procesamiento computacionalmente costoso después de que el modelo genere su respuesta.

SynthID utiliza «modelado generativo», una clase de técnicas de marca de agua que no afectan al entrenamiento del LLM y solo modifican el procedimiento de muestreo del modelo. Las técnicas de marca de agua generativas modifican el proceso de generación del siguiente token para hacer cambios sutiles y contextuales en el texto generado. Estas modificaciones crean una firma estadística en el texto generado mientras se mantiene su calidad.

Luego, se entrena un modelo clasificador para detectar la firma estadística de la marca de agua y determinar si una respuesta fue generada por el modelo o no. Un beneficio clave de esta técnica es que la detección de la marca de agua es eficiente computacionalmente y no requiere acceso al LLM subyacente.

El proceso de SynthID Text (fuente: Nature)

SynthID Text se basa en trabajos anteriores sobre marca de agua generativa y utiliza un algoritmo de muestreo novedoso llamado «muestreo de torneo», que utiliza un proceso en múltiples etapas para elegir el siguiente token al crear marcas de agua. La técnica de marca de agua utiliza una función seudoaleatoria para aumentar el proceso de generación de cualquier LLM de manera que la marca de agua sea imperceptible para los humanos pero visible para un modelo clasificador entrenado. La integración en la biblioteca de Hugging Face facilitará a los desarrolladores añadir capacidades de marca de agua a las aplicaciones existentes.

Para demostrar la viabilidad de marcar en sistemas de producción a gran escala, los investigadores de DeepMind realizaron un experimento en vivo que evaluó las opiniones de casi 20 millones de respuestas generadas por modelos Gemini. Sus hallazgos muestran que SynthID fue capaz de preservar las cualidades de las respuestas manteniéndose detectable por sus clasificadores.

Según DeepMind, SynthID-Text ha sido utilizado para marcar Gemini y Gemini Advanced.

«Esto sirve como prueba práctica de que la marca de agua de texto generativo puede implementarse con éxito y escalarse a sistemas de producción del mundo real, sirviendo a millones de usuarios y desempeñando un papel integral en la identificación y gestión de contenido generado por inteligencia artificial», escriben en su artículo.

Limitaciones

Según los investigadores, SynthID Text es robusto frente a algunas transformaciones posteriores a la generación como recortar fragmentos de texto o modificar algunas palabras en el texto generado. También es resistente a la paráfrasis hasta cierto punto.

Sin embargo, la técnica también tiene algunas limitaciones. Por ejemplo, es menos efectiva en consultas que requieren respuestas factuales y no tiene margen para modificaciones sin reducir la precisión. También advierten que la calidad del detector de marca de agua puede disminuir considerablemente cuando el texto es reescrito completamente.

«SynthID Text no está diseñado para detener directamente a adversarios motivados de causar daño», escriben. «Sin embargo, puede dificultar el uso de contenido generado por IA con fines maliciosos y puede combinarse con otros enfoques para tener una mejor cobertura en cuanto a tipos de contenido y plataformas».

¿Qué opinas?

120 Votos
Upvote Downvote

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

One Comment

  1. ¡Qué interesante esta colaboración entre DeepMind y Hugging Face para proteger el texto generado por IA! La tecnología avanza a pasos agigantados, y es genial ver cómo se buscan soluciones para garantizar la integridad de la información. Sin duda, SynthID parece ser una herramienta muy prometedora en la lucha contra la desinformación en línea. Me pregunto, ¿cómo crees que impactará esta innovación en la confiabilidad de los contenidos generados por IA en el futuro? ¡Estoy ansioso por ver cómo evoluciona esta iniciativa!

Terminemos con la retórica vacía: un llamado global por acciones concretas.

La forma correcta de eliminar tu historial en WhatsApp y prevenir inconvenientes.