
La policía recurrió a la base de datos del Reino Unido de más de 13 millones de imágenes de abuso infantil para ayudar a desarrollar un algoritmo de detección de abuso.
A menos de una milla de la Cámara de los Comunes está la secreta unidad forense de la Policía Metropolitana. Ubicado dentro de una estructura monolítica de hormigón de los años 80, el laboratorio se encarga de todo, desde la deconstrucción de armas de fuego hasta el complicado proceso de reconstrucción de los teléfonos móviles destruidos. Pero cada vez se enfrenta más a un problema reciente: nuestra explosión de datos.
El crimen moderno no se puede separar del desordenado rastro de datos que deja atrás. Incluso cuando los casos no son explícitamente ciberdelincuencia, están vinculados a mensajes enviados a través de redes sociales. Mark Stokes, el jefe de la policía forense digital de la fuerza, estima que sus equipos están obteniendo más de medio petabyte de datos cada seis meses, lo que equivale a 250.000 millones de páginas de texto mecanografiado.
El problema del exceso de datos se agrava en los casos de imágenes y vídeos de abuso sexual infantil. “Un solo caso puede tener terabytes de almacenamiento de datos”, dice Stokes. Esto puede dividirse en teléfonos inteligentes, varios portátiles y unidades de disco duro externas. “Hemos visto máquinas de juego masivas, y los sospechosos tienden a tener más máquinas de alta potencia con más almacenamiento.”
Ahora, la policía en el Reino Unido está recurriendo al aprendizaje profundo para ayudar con la avalancha de imágenes de abuso infantil descubiertas en los dispositivos. La Base de Datos de Imágenes de Abuso Infantil (CAID), creada en 2014, contiene más de 13 millones de imágenes y su número está aumentando rápidamente: cada seis meses se añaden más de medio millón de nuevas imágenes.
La demanda en línea de imágenes y videos de abuso sexual infantil es inquebrantable. En el transcurso de 2018, se eliminaron de Internet 105.047 URL que contenían contenido de abuso infantil. Cada uno de los sitios web puede contener miles de imágenes y material audiovisual. En total, desde 1996, la Internet Watch Foundation (IWF), una organización benéfica con sede en el Reino Unido, ha retirado de la red 477.595 páginas web que contienen imágenes de abusos. En los últimos años se ha atribuido un fuerte aumento de las retiradas a una mejor detección y a una purga más rápida de las imágenes de abuso (el récord de retirada es de cuatro minutos después de que se notificó).
Todas las más de 40 fuerzas policiales del Reino Unido tienen acceso a herramientas que acelerarán el proceso de búsqueda de imágenes de abusos y harán que los agentes de policía pasen menos tiempo buscando entre las imágenes gráficas. En la actualidad, los agentes de policía examinan miles de imágenes para clasificarlas en función de los niveles de abuso que contienen. La tarea es psicológicamente agotadora, con investigadores especializados que pasan horas escudriñando las imágenes de abuso.
Un paso adelante, un aprendizaje profundo. El reconocimiento de imágenes no es una tarea nueva para la rama de la inteligencia artificial, sin embargo, el abuso sexual infantil proporciona un problema tecnológico más complejo que las tareas de reconocimiento de imágenes estándar. “Es un problema de clasificación mucho más difícil que una imagen normal”, Ben Gancz, director general de la firma londinense Qumodo y cofundador de Vigil AI. Qumodo ha desarrollado un nuevo sistema Digital Media Examiner que explota varios elementos de IA. Uno de ellos es el software Vigil AI que detecta y clasifica las imágenes de abuso infantil. Ambas compañías desarrollaron las tecnologías para las fuerzas policiales junto con el Ministerio del Interior. “No es una clasificación clásica de: esto es un gato o un perro.”
En cambio, las imágenes que muestran el abuso infantil son más difíciles de detectar para una máquina. “La parte de Vigil AI del sistema puede reconocer si una imagen contiene abuso infantil y entonces también puede ver cuán grave es el abuso infantil basado en los estándares del Reino Unido”, explica Gancz. Las imágenes de abuso se clasifican en tres categorías según su gravedad: A, que involucra actividad sexual penetrante; B, que incluye actividad sexual no penetrante y C, que son otras imágenes indecentes.
Gancz, un ex policía de la Agencia Nacional contra el Crimen, se niega a explicar exactamente cómo su sistema detecta los tipos de abuso, para evitar informar a los delincuentes sobre las posibles formas de eludir la tecnología. Sin embargo, dice que dentro del sistema que se ha desarrollado se utilizan varios tipos de aprendizaje automático.
El sistema también utiliza inteligencia artificial para hacer coincidir las caras y las ubicaciones en la ya vasta base de datos CAID que contiene millones de imágenes. De esta manera, los agentes de policía pueden identificar si un joven o la zona geográfica en la que se tomó la imagen, extraída de un archivo de imágenes de metadatos GPS, ya ha sido vinculado a un caso de abuso. (Trabajos recientes de la Universidad de Dundee han estado usando las marcas de las manos y los patrones genéticos de los abusadores para identificarlos en fotos y videos). Gancz compara su sistema con un motor de búsqueda de los datos relacionados con las imágenes de abuso infantil.
Los datos sobre los que la inteligencia artificial fue entrenada para identificar el abuso provienen de investigaciones policiales previas, donde las imágenes fueron etiquetadas con el tipo de delito cometido. Los desarrolladores de la IA sólo accedieron a los datos policiales dentro de sitios seguros.
Un componente clave es la determinación de la edad. “Cuando alguien se acerca a la edad de 18 años, es muy difícil para un humano reconocer si alguien es un adulto o un niño”, dice Gancz. A través de los datos previamente etiquetados, el sistema es capaz de determinar si una imagen contiene una imagen de un adulto o de un niño.
En una demostración en los laboratorios forenses de la Met, que contenía imágenes de no-abuso, el sistema de detección está programado para tener un índice de confianza del 95 por ciento. Una vez que el sistema ha determinado si una imagen puede contener abuso infantil, agrupa todas las posibles coincidencias en función de su gravedad.
A los oficiales se les presentan las miniaturas de las imágenes, que pueden ser revisadas por lotes, en lugar de individualmente. Se requiere que filtren las imágenes que no están en la categoría correcta. “Los falsos positivos están bien”, dice Stokes, refiriéndose a la capacidad de la IA para cometer errores. Explica que se necesitan seres humanos dentro del proceso, que no está totalmente automatizado a propósito, para verificar las decisiones de la máquina. “Son los falsos negativos de los que siempre nos preocupamos, nos faltan cosas”.
El sistema permite a los investigadores obtener múltiples imágenes en un corto periodo de tiempo. Las pruebas iniciales de la tecnología en un esquema piloto encontraron que los miembros del personal podían procesar 200 imágenes de posibles abusos en un minuto, anteriormente eran 18 imágenes por minuto. El resultado es que las investigaciones se pueden llevar a cabo con mayor rapidez, y las estimaciones de la policía indican que la categorización, que antes tardaba 24 horas, ahora es posible en un plazo de 30 minutos. El secretario de Interior del Reino Unido, Sajid Javid, dice que los niveles de abuso sexual infantil están “por encima de la media”. “Todos los días se cometen unos 22 delitos cibernéticos contra niños y niñas”, dice.
La automatización por parte de la policía del Reino Unido ha sido bien recibida por la IWF, que trabaja en estrecha colaboración con el gobierno en la lucha contra el abuso infantil. “Automation/AI tiene un papel que desempeñar en colaboración con personas reales”, dice Fred Langford, director general adjunto y director técnico de la IWF. “Aunque AI se está desarrollando increíblemente rápido, todavía no es capaz de proporcionar el contexto necesario para abordar casos más complicados.
A pesar del uso temprano de la tecnología en el mundo real, Stokes está analizando su potencial para otros tipos de delitos y diferentes imágenes fijas. Dice que podría usarse para detectar cuchillos o pistolas. Durante la investigación del asesinato de la adolescente Tia Sharp en 2012, Stokes dice que había más de 20 oficiales de policía en laboratorios forenses vertiendo grabaciones de CCTV relacionadas con el caso.
“No se trata sólo de imágenes indecentes o de niños, sino de poder revisar imágenes y vídeos de una manera mucho más rápida”, dice Stokes. “Podría ser un circuito cerrado de televisión de una investigación de asesinato, incluso que el circuito cerrado de televisión es cada vez más alta resolución y mejor calidad ahora, pero en un asesinato, usted podría tener 30 sistemas de vídeo diferentes que ha descargado. Hemos tenido algunos ejemplos extremos.”
Comments
0 comments
Twitter
RSS