La credibilidad de la industria de modelos de IA de código abierto se ve desafiada con la reciente controversia en torno al rendimiento de Reflection 70B, el nuevo autoproclamado rey de estos modelos.
Reflection 70B, una variante del modelo de lenguaje de gran tamaño de código abierto Llama 3.1 de Meta, lanzado por la pequeña startup neoyorquina HyperWrite (anteriormente OthersideAI), ha sido cuestionado en cuanto a su desempeño, siendo acusado de ‘fraude’ por algunos evaluadores de terceros que no han logrado reproducir ciertas medidas de rendimiento anunciadas.
Inicialmente presentado como «el modelo de código abierto más destacado del mundo» por el CEO de HyperWrite AI, Matt Shumer, la comunidad ha expresado dudas sobre la veracidad de tales afirmaciones. La técnica de «Reflection Tuning» utilizada en este modelo, que permite a los LLM corregir sus propios errores, fue detallada por Shumer en publicaciones en la red social X.
Sin embargo, Artificial Analysis, una organización dedicada al análisis independiente de modelos de IA, reveló discrepancias significativas en los resultados, lo que sugiere que los pesos del modelo podrían haber sido alterados durante el proceso de carga a Hugging Face, una plataforma de alojamiento de código de IA de terceros.
La polémica se intensificó cuando Artificial Analysis señaló que los resultados obtenidos a través de una API privada no coincidían con las afirmaciones iniciales de HyperWrite, planteando serias dudas sobre la transparencia y precisión de los informes de rendimiento del modelo Reflection 70B.
La acusación de ‘fraude en la comunidad de investigación de IA’ por parte de un usuario de X ha avivado aún más el debate sobre la autenticidad y credibilidad de Reflection 70B. A pesar de los defensores del modelo, las críticas continúan resonando en comunidades de aprendizaje automático y IA, destacando la fragilidad de la credibilidad en este campo.
La incertidumbre prevalece mientras la comunidad de investigación de IA aguarda la respuesta de Shumer y la liberación de los pesos actualizados del modelo en Hugging Face. VentureBeat ha intentado contactar a Shumer para obtener su versión sobre las acusaciones de fraude y actualizará el artículo en cuanto haya una respuesta oficial.
Suscríbete a nuestros boletines diarios y semanales para estar al tanto de las últimas novedades y contenido exclusivo sobre la cobertura líder en IA. Aprende más.
GIPHY App Key not set. Please check settings