in

Databricks lanza un agente RAG que desafa los límites de la búsqueda empresarial

La Nueva Frontera de la Búsqueda Empresarial: Cómo el Agente KARL de Databricks Reconfigura el RAG

El panorama de la recuperación de información en entornos corporativos ha operado durante años bajo una premisa_limitante: los sistemas RAG (Retrieval-Augmented Generation) tradicionales están optimizados para un único tipo de consulta, fracasando de forma silenciosa ante cualquier variación. Un modelo entrenado para sintetizar informes a partir de múltiples documentos maneja con torpeza las búsquedas basadas en restricciones concretas. Otro afinado para consultas simples de lookup se desmorona al enfrentarse a un razonamiento de varios pasos sobre notas internas. Esta fragilidad, descubiertatypically cuando un proceso falla, ha plagado de incertidumbre la implementación de soluciones de inteligencia artificial a escala empresarial.

La compañía Databricks afirma haber abordado este problema de raíz con el desarrollo de KARL (Knowledge Agents via Reinforcement Learning), un agente entrenado para dominar simultáneamente seis comportamientos distintos de búsqueda empresarial. Según sus pruebas, el sistema iguala el rendimiento de Claude Opus 4.6 en un benchmark diseñado específicamente para estas tareas, pero con un coste por consulta un 33% menor y una latencia un 47% inferior. Lo más disruptivo: su entrenamiento se realizó enteramente con datos sintéticos generados por el propio agente, sin intervención humana para etiquetado.

El desafío fundamental reside en la naturaleza de las tareas. Como explica Jonathan Frankle, Chief AI Scientist de Databricks, «gran parte de los éxitos de aprendizaje por refuerzo que hemos visto en el último año se han dado en tareas verificables, donde hay una respuesta correcta y otra incorrecta. Las tareas de KARL, las que son normales en la mayoría de las empresas, no son estrictamente verificables de esa manera». Esto abarca desde reconstruir el desenlace de acuerdos competitivos a partir de registros de clientes fragmentados, hasta responder preguntas sobre el historial de una cuenta donde ningún documento individual contiene la respuesta completa o generar “tarjetas de batalla” (battle cards) a partir de datos internos no estructurados. Ninguna de estas tareas posee una única respuesta que un sistema pueda verificar automáticamente.

Entrenar en este ámbito sin un ground truth clear es «realmente no trivial», señala Frankle. El riesgo de “reward hacking”, donde el modelo aprende a maximizar su puntuación sin entender realmente la tarea, es latente. La clave de KARL radica en un algoritmo de aprendizaje por refuerzo novedoso, OAPL (Optimal Advantage-based Policy Optimization with Lagged Inference policy), desarrollado conjuntamente con investigadores de Cornell y Harvard.

Los algoritmos estándar como GRPO asumen que el modelo que recopila los datos de entrenamiento y el que se actualiza están sincronizados, algo imposible en entrenamientos distribuidos a gran escala. Las soluciones anteriores usaban técnicas como importance sampling, que introducían varianza e inestabilidad. OAPL, en cambio, abraza la naturaleza off-policy del entrenamiento distribuido, utilizando una función objetivo de regresión que se mantiene estable incluso con desfases (policy lags) de más de 400 pasos de gradiente, un hundred veces más off-policy que los enfoques previos. En experimentos con generación de código, logró el rendimiento de un modelo entrenado con GRPO usando aproximadamente tres veces menos muestras de entrenamiento. Esta eficiencia es crucial: reduce el coste computacional de miles a unas pocas miles de horas de GPU, desplazando el proyecto del ámbito puramente investigador al potencialmente ejecutable por equipos técnicos empresariales.

La arquitectura resultante no es solo un RAG mejorado, sino un agente que ejecuta cadenas de razonamiento complejas anclando cada paso en hechos recuperados. Frankle lo denomina «razonamiento fundamentado» (grounded reasoning). En las pruebas más demanding, el agente realizó hasta 200 llamadas secuenciales a bases de datos vectoriales, refinando búsquedas, verificando detalles y contrastando documentos antes de commits a una respuesta. En lugar de entrenar un modelo separado de compresión, KARL aprendió a comprimir su propio contexto de forma end-to-end a través del aprendizaje por refuerzo: cuando el contexto crecía demasiado, el agente lo comprimía y continuaba, con la única señal de entrenamiento siendo la recompensa final al completar la tarea. Eliminar esta compresión aprendida hizo que la precisión en un benchmark cayera del 57% al 39%.

Esto desdibuja el viejo debate entre RAG y “memoria contextual” o “memoria agéntica”. Para Frankle, no es una disyuntiva, sino una pila en capas. En la base, una base de datos vectorial masiva; en la cima, la ventana de contexto del LLM. Entre medias, emergen capas de compresión y caché que determinan cuánto del conocimiento previo del agente puede carried forward. KARL demuestra que un agente puede aprender a gestionar esta pila por sí mismo.

Sin embargo, el sistema presenta limitaciones claras. Frankle es explícito: KARL lucha con preguntas de alta ambigüedad, donde existen múltiples respuestas válidas y el modelo no puede discernir si la pregunta es genuinamente abierta o simplemente difícil. Este juicio sigue siendo un problema no resuelto. También muestra una tendencia a “rendirse” prematuramente en algunas consultas, deteniéndose antes de producir una respuesta final. Frankle matiza que, a menudo, las consultas más costosas son precisamente aquellas en las que el modelo se equivocaría; parar puede ser la decisión correcta. Por último, su entrenamiento se ha limitado a búsqueda vectorial; tareas que requieran consultas SQL, búsqueda de archivos o cálculos basados en Python quedan fuera de su alcance actual, aunque en la hoja de ruta futura.

Para los equipos de datos empresariales, KARL plantea tres reconsideraciones urgentes. Primero, la arquitectura de la tubería (pipeline). Optimizar un agente RAG para un solo comportamiento implica descuidar los demás. El entrenamiento multi-tarea produce generalización; las tuberías estrechas, no. Segundo, la importancia del aprendizaje por refuerzo. Databricks probó la alternativa: destilación a partir de modelos expertos mediante fine-tuning supervisado. Este enfoque mejoró el rendimiento en tareas vistas durante el entrenamiento, pero ofreció ganancias negligible en tareas nuevas. El RL desarrolló comportamientos de búsqueda que se transfirieron. Para compañías con datos heterogéneos y tipos de consulta impredecibles, esta distinción es crucial. Tercero, el significado práctico de la eficiencia del RL. Un modelo entrenado para buscar mejor completa tareas en menos pasos, se detiene antes en consultas que no puede responder, diversifica su búsqueda en lugar de repetir consultas fallidas y comprime su propio contexto. El argumento para entrenar agentes de búsqueda especializados, en lugar de enrutar todo a APIs generalistas, no es principalmente de coste. Se trata de construir un modelo que sepa hacer el trabajo.

¿Qué opinas?

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Trump redefine la política exterior estadounidense en su segundo mandato.

Puma y Guizio present