La herramienta de Amazon revela el lado oscuro de tus ayudantes de codificación con IA.

La evaluación de asistentes de codificación basados en inteligencia artificial (IA) ha dado un paso significativo con la introducción de SWE-PolyBench, un benchmark multilenguaje diseñado para evaluar el rendimiento de estos asistentes en una variedad de escenarios del mundo real y lenguajes de programación. Desarrollado por Amazon Web Services (AWS), SWE-PolyBench busca abordar las limitaciones de los marcos de evaluación existentes, ofreciendo a investigadores y desarrolladores nuevas formas de medir la efectividad de los agentes de IA en la navegación de bases de código complejas.

Anoop Deoras, Director de Ciencias Aplicadas para Aplicaciones y Experiencias de Desarrollo Generativas de IA en AWS, destacó la importancia de este benchmark: «Ahora tienen un benchmark en el que pueden evaluar si los agentes de codificación son capaces de resolver tareas de programación complejas». El mundo real presenta tareas más complejas que requieren tocar múltiples archivos, a diferencia de un solo archivo.

La popularidad de las herramientas de codificación impulsadas por IA ha aumentado vertiginosamente, con grandes empresas tecnológicas integrándolas en entornos de desarrollo y productos independientes. Sin embargo, evaluar su rendimiento ha sido un desafío, especialmente en diferentes lenguajes de programación y complejidades de tareas.

SWE-PolyBench contiene más de 2,000 desafíos de codificación seleccionados derivados de problemas reales de GitHub en cuatro lenguajes: Java (165 tareas), JavaScript (1,017 tareas), TypeScript (729 tareas) y Python (199 tareas). También incluye un subconjunto estratificado de 500 problemas (SWE-PolyBench500) diseñado para experimentación más rápida.

Una de las principales innovaciones de SWE-PolyBench es la introducción de métricas de evaluación más sofisticadas más allá de la tasa de paso tradicional, que simplemente mide si un parche generado resuelve con éxito un problema de codificación. El benchmark también evalúa la localización a nivel de archivo, que assesses la capacidad de un agente para identificar qué archivos necesitan modificación dentro de un repositorio, y la recuperación a nivel de nodo de árbol de sintaxis concreta (CST), que evalúa con qué precisión un agente puede identificar estructuras de código específicas que requieren cambios.

La evaluación de Amazon de varios agentes de codificación de código abierto en SWE-PolyBench reveló varios patrones. Python sigue siendo el lenguaje más fuerte para todos los agentes probados, probablemente debido a su prevalencia en los datos de entrenamiento y benchmarks existentes. El rendimiento disminuye a medida que aumenta la complejidad de las tareas, especialmente cuando se requieren modificaciones en tres o más archivos.

SWE-PolyBench llega en un momento crítico en el desarrollo de asistentes de codificación basados en IA. A medida que estas herramientas pasan de entornos experimentales a productivos, la necesidad de benchmarks rigurosos, diversos y representativos se ha intensificado. El benchmark ampliado con soporte para múltiples lenguajes lo hace particularmente valioso para entornos empresariales donde el desarrollo poliglota es común.

Amazon ha puesto a disposición pública todo el marco de SWE-PolyBench. El conjunto de datos es accesible en Hugging Face, y el sistema de evaluación está disponible en GitHub. Un tablero de clasificación dedicado ha sido establecido para rastrear el rendimiento de varios agentes de codificación en el benchmark.

Para los responsables de la toma de decisiones empresariales que evalúan herramientas de codificación basadas en IA, SWE-PolyBench ofrece algo invaluable: una forma de separar el bombo publicitario de la capacidad técnica genuina. Después de todo, la verdadera prueba de un asistente de codificación basado en IA no es cómo se desempeña en demostraciones simplificadas, sino si puede manejar la complejidad multilingüe y de código abierto de proyectos de software reales.

La herramienta de Amazon revela el lado oscuro de tus ayudantes de codificación con IA.

¿Qué opinas?

Escrito por Redacción - El Semanal

Deja una respuestaCancelar la respuesta

La verdadera inteligencia artificial se enfoca en problemas concretos, no en mundos virtuales.

La gestión de datos se estanca en un mar de información descoordinada.

Dos fuertes sismos en el Pacífico ruso activan alerta por tsunami

Ampliación del servicio de Comunicaciones en Rico con iPhone, llega a más operadoras con la versión beta 3 de iOS 18.

El flamante rascacielos de Dubai prioriza la vida saludable desde su construcción.

Donald Trump considera eliminar impuestos en entrevista con Joe Rogan.

Japón celebra a su ciudadana más longeva, médica retirada y ex portadora de la antorcha olímpica

Las cinco habilidades claves que todo emprendedor necesita para triunfar este año

Lilly Pulitzer se une a Saint James para una colaboración exclusiva.

Sasha Calle reivindica la representación queer en ‘On Swift Horses’

Japón celebra a su ciudadana más longeva, médica retirada y ex portadora de la antorcha olímpica

Las cinco habilidades claves que todo emprendedor necesita para triunfar este año

Beirut exige justicia cinco años después de la explosión

Love Island despide a una pareja tras polémico show de talentos

Hong Kong retira pasaportes y bloquea fondos a 16 activistas en el extranjero

¿Qué opinas?

Deja una respuestaCancelar la respuesta

Log In

With social network:

Or with username:

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Suscríbete a El Semanal