La Inteligencia Artificial (IA) ha revolucionado la forma en que abordamos problemas complejos en diversas industrias, pero su implementación no está exenta de desafíos. Un proyecto reciente en el ámbito de la visión computacional puso de relieve las dificultades que pueden surgir al intentar desarrollar modelos capaces de identificar daños físicos en imágenes de laptops. El objetivo parecía claro: crear un modelo que pudiera analizar una imagen de un portátil y detectar cualquier daño visible, como pantallas agrietadas, teclas faltantes o bisagras rotas.
En el inicio del proyecto, se adoptó un enfoque estándar para modelos multimodales, utilizando una única solicitud grande para pasar una imagen a un modelo capaz de procesar imágenes y pedirle que identificara el daño visible. Sin embargo, este enfoque monólito pronto mostró sus limitaciones. Los problemas surgieron en forma de alucinaciones, donde el modelo inventaba daños que no existían o etiquetaba incorrectamente lo que veía. Además, no tenía una forma fiable de detectar imágenes que no eran siquiera de laptops, lo que llevaba a informes de daños absurdos. La combinación de estos problemas hizo que el modelo fuera demasiado poco fiable para su uso operativo.
Ante estos desafíos, el equipo decidió explorar nuevas estrategias. Una de las primeras soluciones ensayadas fue la mezcla de resoluciones de imagen. Se entrenó y probó el modelo utilizando una mezcla de imágenes de alta y baja resolución, con el fin de hacerlo más resistente a la amplia gama de calidades de imagen que encontraría en la práctica. Aunque esta estrategia ayudó a mejorar la consistencia, no logró resolver los problemas centrales de las alucinaciones y el manejo de imágenes no relevantes.

Otra estrategia que se consideró fue la integración de la capacidad de los modelos de lenguaje (LLM) con la generación de subtítulos para imágenes. El proceso implicaba la generación de múltiples subtítulos posibles para una imagen, seguida de la evaluación de la similitud entre cada subtítulo y la imagen por parte de un modelo de incrustación multimodal. Aunque interesante en teoría, este enfoque introdujo nuevos problemas, como la persistencia de alucinaciones en los subtítulos y la cobertura incompleta de los problemas.
El punto de inflexión llegó cuando el equipo decidió aplicar un marco agéntrico de una manera no típica. En lugar de utilizarlo para la automatización de tareas, lo emplearon para mejorar el rendimiento del modelo. Desarrollaron un marco agéntrico estructurado con un agente orquestador que identificaba los componentes de la laptop visibles en la imagen, agentes de componentes dedicados que inspeccionaban cada componente en busca de tipos específicos de daños, y un agente de detección de imágenes no relevantes. Este enfoque modular y orientado a tareas produjo resultados mucho más precisos y explicables, reduciendo drásticamente las alucinaciones y permitiendo la identificación fiable de imágenes no relevantes.
Sin embargo, este enfoque también presentó limitaciones, como el aumento de la latencia debido a la ejecución secuencial de múltiples agentes y la posibilidad de brechas de cobertura si los agentes no estaban programados para identificar ciertos problemas. Para abordar estos desafíos, el equipo creó un sistema híbrido que combinaba el marco agéntrico con un modelo de lenguaje para imágenes monólito y un ajuste fino del modelo utilizando un conjunto seleccionado de imágenes para escenarios de uso de alta prioridad. Esta combinación ofreció la precisión y la explicabilidad del enfoque agéntrico, la amplia cobertura del modelo monólito y la seguridad adicional del ajuste fino dirigido.
A través de este proyecto, se extrajeron varias lecciones importantes. Los marcos agéntricos, comúnmente asociados con la gestión de flujos de trabajo, demostraron ser versátiles y eficaces para mejorar el rendimiento del modelo cuando se aplicaban de manera estructurada y modular. La combinación de diferentes enfoques resultó ser más efectiva que depender de un solo método. Además, se destacó la importancia de abordar las alucinaciones en los modelos visuales, la necesidad de entrenar y probar con imágenes de diversas calidades, y la implementación de comprobaciones para identificar imágenes no relevantes.
En última instancia, el proyecto reveló que, aunque los desafíos son significativos, la aplicación creativa de técnicas de IA y la combinación de diferentes estrategias pueden llevar a soluciones más precisas, fiables y fáciles de entender y gestionar en la práctica.

GIPHY App Key not set. Please check settings