in

Vector search gana terreno en agentes, RAG pierde protagonismo

En el vertiginoso mundo de la inteligencia artificial, donde los modelos de lenguaje dominan los titulares, una tecnología menos visible pero igualmente crucial está ganando protagonismo: las bases de datos vectoriales. Lejos de ser un relicto de la anterior generación de sistemas de IA, como sugerían algunos analistas, estas herramientas se han revelado como infraestructura indispensable para los agentes autónomos que están revolucionando empresas y industrias.

La reciente ronda de financiación de 50 millones de dólares de Qdrant, una empresa berlinesa especializada en búsqueda vectorial de código abierto, no es casualidad. Esta inyección de capital, que sigue a una serie A de 28 millones dos años atrás, coincide con el lanzamiento de su versión 1.17, un hito que refuerza un argumento clave: el problema de la recuperación de información no ha disminuido con la llegada de los agentes; por el contrario, se ha multiplicado y complejizado.

«Los humanos realizamos unas pocas consultas cada pocos minutos», explica Andre Zayarny, CEO y cofundador de Qdrant. «Los agentes, en cambio, pueden efectuar cientos o miles de consultas por segundo, recopilando información para tomar decisiones de forma autónoma». Este cambio de escala transforma los requisitos de infraestructura de un modo que las implementaciones típicas de la era RAG nunca estuvieron diseñadas para soportar.

¿Por qué los agentes requieren una capa de recuperación que la memoria convencional no puede suplir? Los agentes operan con datos que nunca formaron parte de su entrenamiento: datos propietarios de empresas, información actualizada, y millones de documentos que evolucionan constantemente. Las ventanas de contexto de los modelos grandes gestionan el estado de la sesión, pero no ofrecen búsqueda de alto recall a través de ese océano de datos, ni mantienen la calidad de la recuperación mientras los datos cambian, ni soportan el volumen de consultas que genera la toma de decisiones autónoma.

Según Zayarny, la mayoría de los marcos de memoria para IA emplean almacenamiento vectorial en alguna forma. La implicación es clara: incluso las herramientas que se promocionan como alternativas a la recuperación dependen de infraestructura de búsqueda subyacente. Cuando esa capa no está diseñada para la carga, surgen tres modos de fallo críticos.

Primero, a escala de documentos, un resultado omitido no es solo un problema de latencia; es un error en la calidad de la decisión que se propaga en cada paso de recuperación dentro de un turno del agente. Segundo, bajo carga de escritura, la relevancia se degrada porque los datos recién ingeridos permanecen en segmentos no optimizados hasta que se completa la indexación, haciendo que las búsquedas sobre los datos más frescos sean más lentas y menos precisas justo cuando la información actual es más crucial. Tercero, en infraestructura distribuida, una réplica lenta incrementa la latencia en todas las llamadas paralelas de herramientas dentro de un turno del agente, un retraso que un usuario humano tolera como inconveniencia pero un agente autónomo no puede permitirse.

La versión 1.17 de Qdrant aborda cada uno de estos desafíos. Una consulta de feedback de relevancia ajusta la puntuación de similitud en la siguiente pasada de recuperación usando señales ligeras generadas por el modelo, sin necesidad de reentrenar el modelo de embedding. Una función de fan-out diferido consulta una segunda réplica cuando la primera excede un umbral de latencia configurable. Y una nueva API de telemetría a nivel de clúster sustituye la solución de problemas nodo por nodo por una visión unificada de todo el clúster.

Este enfoque refleja un cambio en la narrativa de Qdrant. «Ya no queremos que nos llamen base de datos vectorial», afirma Zayarny. «Estamos construyendo una capa de recuperación de información para la era de la IA. Las bases de datos almacenan datos de usuario. Si la calidad de los resultados de búsqueda importa, necesitas un motor de búsqueda». Su consejo para los equipos que inician proyectos es aprovechar las capacidades vectoriales ya integradas en su stack tecnológico. Las migraciones a sistemas especializados ocurren cuando la escala fuerza la situación. «Vemos empresas que acuden a nosotros diciendo que comenzaron con PostgreSQL y pensaron que era suficiente, y no lo es», comenta.

La arquitectura de Qdrant, escrita en Rust, le confiere eficiencia en memoria y control de rendimiento a bajo nivel que lenguajes de mayor nivel no igualan al mismo costo. Su naturaleza de código abierto multiplica esta ventaja, ya que la retroalimentación de la comunidad y la adopción de desarrolladores permiten a una empresa de su escala competir con proveedores de mayores recursos de ingeniería. «Sin eso, no estaríamos donde estamos ahora», subraya Zayarny.

Dos casos de uso en producción ilustran la necesidad de esta infraestructura especializada. GlassDollar, que ayuda a empresas como Siemens y Mahle a evaluar startups, basa su producto en la búsqueda semántica sobre un corpus de millones de empresas. Su arquitectura ejecuta expansión de consultas en cada solicitud: un prompt único se desdobla en múltiples consultas paralelas que recuperan candidatos desde distintos ángulos, para luego combinarlos y reordenarlos. Este patrón de recuperación agéntica, no RAG, exige infraestructura de búsqueda dedicada para mantenerse a volumen.

Tras migrar desde Elasticsearch hacia 10 millones de documentos indexados, GlassDollar redujo costes de infraestructura en aproximadamente un 40%, eliminó una capa de compensación basada en palabras clave que mantenía para paliar las deficiencias de relevancia de Elasticsearch, y observó un incremento del triple en el compromiso de los usuarios. «Medimos el éxito por el recall», dice Kamen Kanev, jefe de producto de GlassDollar. «Si las mejores empresas no están en los resultados, lo demás no importa. El usuario pierde confianza». Para ellos, la memoria agéntica y las ventanas de contexto extendidas no son solución: «Eso es un problema de infraestructura, no una tarea de gestión de estado de conversación. No se resuelve extendiendo una ventana de contexto».

Por su parte, &AI está construyendo infraestructura para litigios de patentes. Su agente de IA, Andy, realiza búsqueda semántica sobre cientos de millones de documentos que abarcan décadas y jurisdicciones múltiples. Dado que los abogados de patentes no actuarán sobre texto legal generado por IA, cada resultado que presente el agente debe estar fundamentado en un documento real. «Toda nuestra arquitectura está diseñada para minimizar el riesgo de alucinaciones haciendo de la recuperación la primitiva central, no la generación», explica Herbie Turner, fundador y CTO de &AI. En su diseño, la capa de agente y la de recuperación son distintas: «Andy, nuestro agente de patentes, se construye sobre Qdrant. El agente es la interfaz. La base de datos vectorial es la verdad fundamental».

Estas experiencias señalan el camino para otras organizaciones. ¿Cuándo es momento de abandonar la configuración actual? Tres indicadores claves: cuando la calidad de la recuperación está directamente ligada a resultados de negocio; cuando los patrones de consulta implican expansión, reordenación multifase o llamadas paralelas de herramientas; o cuando el volumen de datos supera los decenas de millones de documentos.

En ese punto, la evaluación debe centrarse en cuestiones operativas: qué visibilidad ofrece la configuración actual sobre un clúster distribuido y qué margen de rendimiento tiene ante el aumento de consultas agénticas. «Hay mucho ruido hoy sobre qué reemplaza la capa de recuperación», reflexiona Kanev. «Pero para cualquiera que construya un producto donde la calidad de la recuperación es el producto, donde omitir un resultado tiene consecuencias reales para el negocio, se necesita infraestructura de búsqueda dedicada».

Queda claro que, en el ecosistema de los agentes autónomos, la búsqueda vectorial no es un componente prescindible, sino el cimiento sobre el que se edifican decisiones precisas y confiables. Las empresas que ignoren esta realidad podrían encontrarse con que su ventaja competitiva se erosiona por fallos en la recuperación de información, un costo demasiado alto en un mundo cada vez más impulsado por IA.

¿Qué opinas?

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Dick’s redefine su estrategia en Foot Locker con narrativa más clara y edición optimizada

Satoshi Kuwata detalla su cápsula de otoño 2026 con precisión japonesa