in

La herramienta de Amazon revela el lado oscuro de tus ayudantes de codificación con IA.

La evaluación de asistentes de codificación basados en inteligencia artificial (IA) ha dado un paso significativo con la introducción de SWE-PolyBench, un benchmark multilenguaje diseñado para evaluar el rendimiento de estos asistentes en una variedad de escenarios del mundo real y lenguajes de programación. Desarrollado por Amazon Web Services (AWS), SWE-PolyBench busca abordar las limitaciones de los marcos de evaluación existentes, ofreciendo a investigadores y desarrolladores nuevas formas de medir la efectividad de los agentes de IA en la navegación de bases de código complejas.

Anoop Deoras, Director de Ciencias Aplicadas para Aplicaciones y Experiencias de Desarrollo Generativas de IA en AWS, destacó la importancia de este benchmark: «Ahora tienen un benchmark en el que pueden evaluar si los agentes de codificación son capaces de resolver tareas de programación complejas». El mundo real presenta tareas más complejas que requieren tocar múltiples archivos, a diferencia de un solo archivo.

La popularidad de las herramientas de codificación impulsadas por IA ha aumentado vertiginosamente, con grandes empresas tecnológicas integrándolas en entornos de desarrollo y productos independientes. Sin embargo, evaluar su rendimiento ha sido un desafío, especialmente en diferentes lenguajes de programación y complejidades de tareas.

SWE-PolyBench contiene más de 2,000 desafíos de codificación seleccionados derivados de problemas reales de GitHub en cuatro lenguajes: Java (165 tareas), JavaScript (1,017 tareas), TypeScript (729 tareas) y Python (199 tareas). También incluye un subconjunto estratificado de 500 problemas (SWE-PolyBench500) diseñado para experimentación más rápida.

Una de las principales innovaciones de SWE-PolyBench es la introducción de métricas de evaluación más sofisticadas más allá de la tasa de paso tradicional, que simplemente mide si un parche generado resuelve con éxito un problema de codificación. El benchmark también evalúa la localización a nivel de archivo, que assesses la capacidad de un agente para identificar qué archivos necesitan modificación dentro de un repositorio, y la recuperación a nivel de nodo de árbol de sintaxis concreta (CST), que evalúa con qué precisión un agente puede identificar estructuras de código específicas que requieren cambios.

La evaluación de Amazon de varios agentes de codificación de código abierto en SWE-PolyBench reveló varios patrones. Python sigue siendo el lenguaje más fuerte para todos los agentes probados, probablemente debido a su prevalencia en los datos de entrenamiento y benchmarks existentes. El rendimiento disminuye a medida que aumenta la complejidad de las tareas, especialmente cuando se requieren modificaciones en tres o más archivos.

SWE-PolyBench llega en un momento crítico en el desarrollo de asistentes de codificación basados en IA. A medida que estas herramientas pasan de entornos experimentales a productivos, la necesidad de benchmarks rigurosos, diversos y representativos se ha intensificado. El benchmark ampliado con soporte para múltiples lenguajes lo hace particularmente valioso para entornos empresariales donde el desarrollo poliglota es común.

Amazon ha puesto a disposición pública todo el marco de SWE-PolyBench. El conjunto de datos es accesible en Hugging Face, y el sistema de evaluación está disponible en GitHub. Un tablero de clasificación dedicado ha sido establecido para rastrear el rendimiento de varios agentes de codificación en el benchmark.

Para los responsables de la toma de decisiones empresariales que evalúan herramientas de codificación basadas en IA, SWE-PolyBench ofrece algo invaluable: una forma de separar el bombo publicitario de la capacidad técnica genuina. Después de todo, la verdadera prueba de un asistente de codificación basado en IA no es cómo se desempeña en demostraciones simplificadas, sino si puede manejar la complejidad multilingüe y de código abierto de proyectos de software reales.

¿Qué opinas?

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Lilly Pulitzer se une a Saint James para una colaboración exclusiva.

Sasha Calle reivindica la representación queer en ‘On Swift Horses’