Nvidia Nemotron-Cascade 2 domina matemáticas y programación con 3B parámetros activos y open-source

El anuncio de Nvidia sobre su último modelo de lenguaje, Nemotron-Cascade 2, ha captado la atención de expertos en inteligencia artificial, pero sus implicaciones podrían extenderse mucho más allá de los círculos tecnológicos. En sectores como la moda, donde la innovación y la eficiencia son cruciales, esta tecnología plantea un cambio paradigmático: la capacidad de alcanzar un rendimiento de élite sin necesidad de infraestructuras computacionales masivas. Este modelo, que ha obtenido medallas de oro en competencias internacionales de matemáticas e informática con solo 3.000 millones de parámetros activos durante su ejecución, cuestiona la creencia arraigada de que cuanto mayor es un modelo, mayor es su capacidad.

La hazaña es aún más notable si se considera que Nemotron-Cascade 2 no parte de un modelo base desconocido, sino que evoluciona a partir de Nemotron-3-Nano, una arquitectura ya existente. Según datos proporcionados por la compañía, este nuevo sistema no solo iguala, sino que supera en numerosas pruebas a versiones anteriores con cuatro veces más parámetros activos. La clave no reside en el tamaño inicial, sino en un meticuloso proceso de post-entrenamiento, una fase que va más allá del entrenamiento previo y que se está convirtiendo en el principal factor diferenciador para equipos que desarrollan inteligencia artificial a medida. Para empresas de moda que buscan implementar soluciones de IA sin costes prohibitivos, este enfoque sugiere que optimizar lo que ya se tiene puede ser más estratégico que invertir en modelos base cada vez más grandes.

El corazón de esta mejora es una metodología llamada Cascade RL, un proceso de aprendizaje por refuerzo que se aplica de forma secuencial y especializada por dominios. Tradicionalmente, entrenar un modelo simultáneamente en múltiples habilidades como razonamiento matemático, codificación o seguimiento de instrucciones genera interferencias, un fenómeno conocido como olvido catastrófico que degrada el rendimiento en áreas previamente dominadas. La innovación de Nvidia es abordar cada competencia en etapas ordenadas y separadas, comenzando por el seguimiento de instrucciones, continuando con preguntas STEM, alineación con preferencias humanas y finalmente codificación e ingeniería de software. Este orden no es arbitrario; responde a observaciones empíricas, como la conveniencia de dejar la codificación para las últimas etapas para evitar conflictos con habilidades más generales.

Esta estrategia secuencial ofrece tres ventajas prácticas. Primero, cada etapa es resistente al olvido catastrófico, lo que permite al modelo acumular conocimientos sin perder lo aprendido. Segundo, al enfocarse en un dominio a la vez, se pueden ajustar con precisión los hiperparámetros y el plan de estudios de entrenamiento, maximizando la asimilación. Tercero, la eficiencia computacional mejora drásticamente, ya que dentro de un dominio las respuestas suelen tener una extensión y un coste de verificación similares, optimizando el uso de recursos. Para un equipo de desarrollo, esto implica que integrar nuevas funcionalidades a un modelo existente puede hacerse de manera modular, sin need de rediseñar todo el pipeline, un aspecto vital para la agilidad en entornos empresariales.

Sin embargo, incluso con una secuenciación cuidadosa, el modelo experimenta cierta deriva de rendimiento al pasar por múltiples fases. Para contrarrestarlo, Nvidia introduce una técnica denominada Multi-Domain On-Policy Distillation (MOPD). En lugar de recurrir a modelos externos como profesores, MOPD selecciona los puntos de control intermedios de la misma ejecución de entrenamiento que mejor rinden en cada dominio específico —por ejemplo, el checkpoint más fuerte en matemáticas tras el ajuste fino supervisado— y los utiliza para «destilar» su conocimiento de vuelta al modelo estudiante. Este método, que opera a nivel de tokens y no de secuencias completas, es extremadamente eficiente en el uso de datos. En pruebas con el benchmark matemático AIME 2025, MOPD recuperó el nivel de rendimiento del profesor en apenas 30 pasos de optimización, mientras que técnicas convencionales como GRPO requerían más pasos para lograr una puntuación inferior.

Los resultados en pruebas de razonamiento son sobresalientes. En LiveCodeBench v6, un referente en programación competitiva, Nemotron-Cascade 2 alcanza 87.2 puntos, superando a modelos con decenas de miles de millones de parámetros. En matemáticas, con HMMT February 2025, logra 94.6, y en alineación con preferencias humanas (ArenaHard v2) consigue 83.5. Con razonamiento integrado con herramientas, su puntuación en AIME 2025 sube a 98.6. No obstante, el informe técnico es honesto al señalar debilidades claras: en benchmarks de conocimiento general como MMLU-Pro (79.8 vs. 85.3) y GPQA-Diamond (76.1 vs. 84.2), el modelo queda por detrás de competidores como Qwen3.5-35B-A3B. Del mismo modo, en tareas de agencia compleja, como BFCL v4, su desempeño es inferior. Esto confirma que la optimización está dirigida hacia el razonamiento profundo y el seguimiento de instrucciones, no hacia la recuperación de conocimiento amplio o interacciones multi-turno abiertas.

Para equipos empresariales, especialmente en industrias creativas como la moda, estas lecciones son transformadoras. La arquitectura secuencial de Cascade RL permite añadir capacidades —como generación de diseños con verificación de restricciones de materiales o optimización de patrones— sin reentrenar desde cero. MOPD proporciona una vía para refinar el modelo usando sus propios logros intermedios, eliminando la dependencia de costosos profesores externos. La configuración de entrenamiento, basada en GRPO sin penalización de KL y using el repositorio abierto Nemo-RL de Nvidia, es reproducible. En el ámbito del diseño de moda, esto podría traducirse en sistemas de IA que propongan combinaciones de telas, siluetas o colores con un razonamiento verificable, o que optimicen la logística de producción bajo múltiples约束s.

Este trabajo se inscribe en una tendencia más amplia hacia la «densidad de inteligencia», donde el objetivo ya no es acumular parámetros, sino extraer la máxima capacidad de cada uno. Modelos como los de DeepSeek, Qwen y ahora la serie Cascade demuestran que los sistemas más competentes en razonamiento especializado no tienen por qué ser los más grandes. Esto es crucial para la despliegue empresarial: un modelo con 3.000 millones de parámetros activos puede ejecutarse con una fracción del coste y latencia de un modelo denso de 70.000 millones, haciendo que capacidades avanzadas sean accesibles incluso para pymes o startups de moda con presupuestos ajustados.

El límite de este enfoque radica en su dependencia de dominios con recompensas verificables. Las matemáticas tienen respuestas correctas; la codificación tiene casos de prueba; el seguimiento de instrucciones puede tener reglas claras. Extenderlo a tareas abiertas donde la verificación es subjetiva —como evaluar la estética de un diseño de moda o predecir tendencias— sigue siendo un desafío abierto. Sin embargo, para aplicaciones estructuradas dentro de la industria —modelado financiero, cálculo de costes de producción, análisis de compliance normativa, simulación de tejidos— la metodología detallada en el informe de Nvidia ofrece uno de los planos más completos publicados hasta la fecha sobre cómo construir sistemas de razonamiento de alto rendimiento sin necesidad de supercomputadoras.

En definitiva, Nemotron-Cascade 2 no es solo un hito técnico en el Olympiad de la IA; es una demostración de que la inteligencia artificial especializada y eficiente está al alcance de organizaciones que antes veían la frontera tecnológica como inalcanzable. Para el sector de la moda, que debe equilibrar creatividad, velocidad y coste, la posibilidad de desplegar modelos de razonamiento profundo en infraestructuras moderadas abre un campo de oportunidades para innovar en diseño, personalización y operaciones, democratizando herramientas que hasta ahora parecían reservadas a los gigantes de la tecnología. La receta de post-entrenamiento de código abierto de Nvidia podría ser, en este sentido, el patrón que necesitaban los equipos de IA de muchas empresas de moda para dar el salto definitivo.

Nvidia Nemotron-Cascade 2 domina matemáticas y programación con 3B parámetros activos y open-source

¿Qué opinas?

Escrito por Redacción - El Semanal

Deja una respuestaCancelar la respuesta

DeerFlow 2.0 revoluciona la orquestación local de agentes de IA para empresas

Cursor’s Composer 2 se apoya en modelo chino y expone vulnerabilidad del open-source occidental.

El médico estético Antoni Calmon fallece a los 41 años

Disculpa de organizadores por error con delegación surcoreana en Juegos Olímpicos

Estrellas de Hollywood que debes conocer según expertos de cine.

Increíble hazaña: crean anuncio complejo en menos de un día utilizando inteligencia artificial de Runway

DeerFlow 2.0 revoluciona la orquestación local de agentes de IA para empresas

Doja Cat expone en TikTok las crónicas de un padre irresponsable

Las redes celebran el cardigan de curling de Ryan Gosling en Project Hail Mary.

Robert Talbott designa a Nick Picchione como presidente

DeerFlow 2.0 revoluciona la orquestación local de agentes de IA para empresas

Cursor’s Composer 2 se apoya en modelo chino y expone vulnerabilidad del open-source occidental.

Uni-1 de Luma AI supera a Google y OpenAI con costo 30% menor.