La evaluación de productos de inteligencia artificial (IA) se ha convertido en un desafío crucial para los equipos de producto. En la era de los modelos de lenguaje grandes (LLM), donde las salidas pueden variar desde texto hasta imágenes y música, la complejidad de medir el impacto de estos productos ha aumentado significativamente.
Para abordar este reto, es fundamental comenzar identificando qué se quiere saber sobre el producto de IA. Esto implica formular preguntas clave que guíen la selección de las métricas adecuadas. Algunas de estas preguntas podrían incluir: ¿El cliente recibió una salida? ¿Cuánto tiempo tardó el producto en proporcionar una salida? ¿Al usuario le gustó la salida?
Una vez definidas las preguntas clave, el siguiente paso es identificar sub-preguntas tanto para señales de ‘entrada’ como de ‘salida’. Las métricas de salida son indicadores rezagados que permiten medir eventos que ya han ocurrido, mientras que las métricas de entrada y los indicadores adelantados pueden ayudar a identificar tendencias o predecir resultados.

Por ejemplo, para un producto de búsqueda, las preguntas clave podrían traducirse en métricas como el porcentaje de sesiones de búsqueda con resultados mostrados al cliente (cobertura), el tiempo necesario para mostrar los resultados de búsqueda (latencia), y el porcentaje de sesiones de búsqueda con retroalimentación positiva de los clientes (satisfacción del cliente).
Asimismo, para productos que generan descripciones de listados, las métricas podrían centrarse en la cobertura de listados con descripciones generadas, la latencia en la generación de estas descripciones, y la calidad percibida por los usuarios y equipos de contenido.
La implementación de este marco para definir métricas puede aplicarse a cualquier producto basado en aprendizaje automático (ML), proporcionando una estructura sólida para evaluar su efectividad.
En última instancia, contar con un sistema de métricas bien definido permite a los equipos tomar decisiones informadas y asegurarse de que están trabajando hacia los mismos objetivos. La ausencia de un enfoque claro en las métricas puede llevar a que diferentes versiones de métricas de ‘precisión’ o ‘calidad’ sean desarrolladas por varios miembros del equipo, dificultando la evaluación y el avance del producto.
En conclusión, desarrollar el sistema métrico adecuado es crucial para cualquier producto de IA. Al identificar las preguntas clave, establecer sub-preguntas relevantes y seleccionar métodos para recopilar métricas, los equipos pueden asegurar que su producto está cumpliendo con sus objetivos y satisfaciendo las necesidades de los clientes.

GIPHY App Key not set. Please check settings