La polémica en torno al modelo de lenguaje Reflection 70B continúa, luego de que Matt Shumer, cofundador y CEO de la startup Hyperwrite AI, anunciara en septiembre una versión mejorada de Meta’s Llama 3.1-70B, denominada Reflection 70B. Shumer afirmó que, según pruebas de terceros que publicó, era «el mejor modelo de código abierto del mundo».
Sin embargo, tras el lanzamiento, evaluadores en la comunidad de investigación y hosting de IA tuvieron dificultades para reproducir los resultados anunciados, lo que llevó a acusaciones de fraude.
En respuesta a estas preocupaciones, Shumer se comprometió a realizar una revisión de los problemas junto a Sahil Chaudhary, fundador de Glaive, la startup de IA cuyos datos sintéticos Shumer afirmó haber utilizado para entrenar Reflection 70B.
Casi un mes después, Chaudhary publicó un informe post mortem en su blog de Glaive AI, donde ofreció recursos para que la comunidad de código abierto pueda probar el modelo y el proceso de entrenamiento por sí misma.
Dentro de este análisis, Chaudhary reconoció errores en el lanzamiento del modelo y la gestión de los problemas reportados, lo cual generó un impacto negativo en el ecosistema de código abierto.
Con el objetivo de restaurar la transparencia y reconstruir la confianza, Chaudhary compartió recursos como los pesos del modelo en Hugging Face, los datos de entrenamiento y scripts de entrenamiento y evaluación en GitHub. Estos recursos permiten a la comunidad replicar los resultados originales y validar las afirmaciones de rendimiento del modelo Reflection 70B.
Además, se abordaron preocupaciones sobre una posible contaminación de datos en los conjuntos de prueba, asegurando que no hubo una superposición significativa entre los datos de entrenamiento y las pruebas de referencia.
En cuanto a los esfuerzos de reproducción de benchmark, Chaudhary identificó un bug en el código de evaluación que provocó puntuaciones infladas en ciertas tareas. Las evaluaciones corregidas muestran un rendimiento ligeramente menor, pero aún sólido en comparación con el informe inicial.
A pesar de las críticas y escepticismo dentro de la comunidad de IA de código abierto, Chaudhary y Shumer continúan trabajando para validar y mejorar el modelo Reflection 70B. La transparencia y el compromiso con la comunidad son elementos clave en este proceso de restauración de confianza en torno al proyecto.
GIPHY App Key not set. Please check settings