in

Más datos, peores decisiones: la IA avanzada amplifica errores lógicos.

La paradoja de la escala en la inteligencia artificial: ¿más potencia siempre equivale a mejores resultados?

Un reciente estudio de Microsoft Research arroja luz sobre una realidad cada vez más presente en el desarrollo de la inteligencia artificial: aumentar los recursos computacionales no siempre se traduce en mejoras significativas en el razonamiento de los modelos de lenguaje grandes (LLM). La investigación, que analizó nueve modelos de vanguardia, incluyendo GPT-4o, Claude 3.5 Sonnet y Llama 3.1 405B, revela una variabilidad considerable en la eficacia de las técnicas de “escalado en tiempo de inferencia”, es decir, aquellas que asignan más potencia de cálculo durante el proceso de generación de respuestas.

La proliferación de LLM capaces de abordar tareas complejas gracias a métodos de escalado ha generado un optimismo considerable. Sin embargo, el estudio desvela que esta mejora en el rendimiento no es universal, y que la relación entre la capacidad computacional y la calidad de las respuestas es mucho más matizada de lo que se creía. Este hallazgo tiene implicaciones directas para las empresas que buscan integrar soluciones de IA avanzadas, ya que la imprevisibilidad en el coste y la fiabilidad de estos modelos podría ser un factor limitante.

La investigación se centró en evaluar tres enfoques principales de escalado: la técnica tradicional “Cadena de Pensamiento” (CoT), el “Escalado Paralelo”, que genera múltiples respuestas independientes y selecciona la mejor, y el “Escalado Secuencial”, que refina iterativamente una respuesta basándose en la retroalimentación de un “crítico”, que incluso puede ser el propio modelo. Estos métodos fueron probados en ocho conjuntos de datos desafiantes, abarcando áreas como matemáticas, ciencia, planificación de calendarios, problemas NP-difíciles, navegación y razonamiento espacial.

Un aspecto clave del estudio fue el análisis de la “frontera de Pareto” del razonamiento de los LLM, que evalúa tanto la precisión como el coste computacional (medido en tokens generados). Esta métrica permite identificar la eficiencia con la que los modelos alcanzan sus resultados y, en palabras de los investigadores, “analizar el equilibrio entre la precisión y el uso de recursos”. Además, se introdujo un nuevo indicador, la “brecha convencional-razonamiento”, que cuantifica el potencial de mejora que se podría obtener mediante un mejor entrenamiento o técnicas de verificación más sofisticadas.

Los resultados arrojaron conclusiones sorprendentes. En primer lugar, se observó que los modelos específicamente optimizados para el razonamiento no siempre superaban a los modelos convencionales en todas las tareas. La magnitud de la mejora variaba considerablemente según el dominio y la complejidad del problema. Los avances logrados en la resolución de problemas matemáticos, por ejemplo, no se replicaron necesariamente en tareas de razonamiento científico o de planificación.

Otro hallazgo preocupante fue la alta variabilidad en el consumo de tokens, incluso entre modelos que alcanzaban niveles de precisión similares. En un ejemplo concreto, el modelo DeepSeek-R1 utilizó más de cinco veces tantos tokens como Claude 3.7 Sonnet para obtener resultados comparables en el banco de pruebas AIME 2025 de matemáticas. Este fenómeno pone de manifiesto una ineficiencia significativa en el uso de recursos computacionales, lo que podría tener un impacto considerable en los costes operativos de las empresas.

Además, el estudio refutó la idea intuitiva de que un mayor número de tokens se traduce necesariamente en una mayor precisión. Los investigadores encontraron instancias en las que cadenas de razonamiento más largas no indicaban una mejor resolución del problema, sino más bien dificultades por parte del modelo. De igual manera, en la comparación entre diferentes modelos de razonamiento, un mayor uso de tokens no siempre se correlacionaba con una mayor exactitud.

Quizás la implicación más relevante para las empresas sea la “no determinismo del coste”. Los investigadores demostraron que repetir la misma consulta al mismo modelo podría generar variaciones significativas en el uso de tokens, lo que dificulta la previsión de costes y la elaboración de presupuestos precisos. Esta fluctuación, incluso cuando el modelo proporciona la respuesta correcta de forma consistente, representa un desafío importante para la implementación a gran escala de soluciones basadas en LLM.

No obstante, la investigación también identificó áreas prometedoras para futuras investigaciones. La mejora constante en el rendimiento al incorporar “verificadores perfectos” (que utilizan la mejor de las N respuestas generadas) sugiere que el desarrollo de mecanismos de verificación robustos y generalizables es clave para optimizar la eficacia de los LLM.

En definitiva, el estudio de Microsoft Research desafía la creencia generalizada de que aumentar la capacidad computacional es la única vía para mejorar el razonamiento de los modelos de IA. Los hallazgos sugieren que es fundamental un enfoque más holístico, que combine la optimización del modelo con la implementación de mecanismos de verificación eficientes y la atención a la eficiencia en el uso de los recursos. Este conocimiento es esencial para las organizaciones que buscan aprovechar al máximo el potencial de la inteligencia artificial, minimizando al mismo tiempo los riesgos y los costes asociados.

«

¿Qué opinas?

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Kaiyi Auto revoluciona el mercado filipino con híbridos enchufables importados.

LoveShackFancy y Santa Margherita celebran el verano con un rosado exclusivo.