Investigadores de Microsoft proponen un marco para construir aplicaciones de lenguaje basadas en datos ampliados para LLM
La mejora de los grandes modelos de lenguaje (LLMs) con conocimientos más allá de sus datos de entrenamiento es un área de interés importante, especialmente para aplicaciones empresariales.
El enfoque más conocido para incorporar conocimientos específicos de dominio y cliente en LLMs es utilizar la generación con recuperación aumentada (RAG). Sin embargo, las técnicas simples de RAG no son suficientes en muchos casos.
La construcción de aplicaciones efectivas de LLM basadas en datos ampliados requiere una consideración cuidadosa de varios factores. En un nuevo documento, los investigadores de Microsoft proponen un marco para categorizar diferentes tipos de tareas RAG basadas en el tipo de datos externos que requieren y la complejidad del razonamiento que implican.
«No existe una solución única para las aplicaciones de LLM basadas en datos ampliados», escriben los investigadores. «Las demandas del mundo real, especialmente en dominios expertos, son altamente complejas y pueden variar significativamente en su relación con los datos proporcionados y las dificultades de razonamiento que requieren».
Para abordar esta complejidad, los investigadores proponen una categorización de cuatro niveles de consultas de usuario basada en el tipo de datos externos requeridos y el procesamiento cognitivo involucrado en la generación de respuestas precisas y relevantes:
– Hechos explícitos: Consultas que requieren recuperar hechos explícitamente declarados de los datos.
– Hechos implícitos: Consultas que requieren inferir información no declarada explícitamente en los datos, a menudo involucrando un razonamiento básico o sentido común.
– Fundamentos interpretables: Consultas que requieren comprender y aplicar fundamentos o reglas específicas del dominio que se proporcionan explícitamente en recursos externos.
– Fundamentos ocultos: Consultas que requieren descubrir y aprovechar métodos de razonamiento implícitos o estrategias específicas del dominio que no están explícitamente descritos en los datos.
Cada nivel de consulta presenta desafíos únicos y requiere soluciones específicas para abordarlos de manera efectiva.
Las consultas de datos a…
GIPHY App Key not set. Please check settings