Batch continuo activa GPUs inactivas para inferencia en IA.

La industria de la moda se enfrenta a un dilema estructural similar al que afecta a cualquier operador de infraestructura digital a gran escala: la gestión del tiempo ocioso. Mientras las pasarelas presentan colecciones efímeras, los centros de datos y las nubes privadas (neoclouds) lidian con un problema silencioso y costoso: los ciclos de GPU que permanecen inactivos entre una carga de trabajo y otra. Este tiempo muerto, sin embargo, está destinado a convertirse en un nuevo frente de optimización y revenue, gracias a tecnologías que priorizan la throughput de tokens sobre el simple alquiler de capacidad bruta.

La analogía es poderosa: así como una editorial debe monetizar el espacio publicitario no vendido, los operadores de hardware de computación intensiva buscan formas de generar ingresos con sus recursos subutilizados. La solución no pasa solo por rentar servidores en mercados spot —donde el proveedor cloud sigue siendo un intermediario que alquila potencia en bruto—, sino por transformar ese hardware ocioso en una infraestructura de inferencia de IA lista para servir modelos de código abierto a escala. Esta es la apuesta de plataformas como InferenceSense, que propone un modelo de revenue sharing donde el operador cede sus ciclos desocupados para ejecutar cargas de trabajo de inferencia generativa, priorizando siempre sus propias tareas.

El sustento técnico de esta aproximación se remonta a investigations académicas seminales. El concepto de continuous batching, que permite procesar solicitudes de inferencia de forma dinámica sin esperar a completar lotes fijos, nació de un laboratorio de la Universidad Nacional de Seúl. Su autor, el investigador Byung-Gon Chun, lo plasmó en el trabajo «Orca», presentado en OSDI 2022. Dicha técnica constituye hoy el núcleo de motores de inferencia como vLLM, estándar de facto en despliegues productivos. Chun, tras una década investigando ejecución eficiente de modelos de aprendizaje automático a escala, fundó FriendliAI en 2021 con la visión de especializarse en inferencia, antes de que el foco industry se desplazara masivamente del entrenamiento a la puesta en producción.

InferenceSense se despliega como una capa de orquestación sobre Kubernetes, el ecosistema de gestión de recursos ya adoptado por la mayoría de operadores de neocloud. El operador define un pool de nodos GPU disponibles, establece condiciones de recuperación y cede el control de ese slice a la plataforma. Cuando el sistema de planificación del operador reclama un nodo, las cargas de inferencia en ejecución son preemptadas en segundos. La demanda se canaliza a través de clientes directos de FriendliAI y agregadores como OpenRouter, cubriendo modelos de alto impacto como DeepSeek, Qwen o Kimi. El operador monitoriza en tiempo real modelos activos, tokens procesados y revenue acumulado, sin costes upfront ni compromisos mínimos.

La clave de la propuesta económica reside en la unidad de monetización: no se vende capacidad de GPU por hora, sino throughput de tokens procesados. La eficiencia del stack de inferencia —desarrollado en C++ con kernels GPU personalizados, sin depender de librerías genéricas como cuDNN— permite, según la compañía, multiplicar por dos o tres el rendimiento de un despliegue estándar con vLLM. Esto implica que, por cada ciclo ocioso, el operador puede generar más ingresos que alquilando la máquina en bruto, ya que la plataforma extrae máximo valor de cada watt consumido.

Para los ingenieros de IA que evalúan costes de inferencia, este escenario introduce una variable estratégica. La decisión entre un hyperscaler (AWS, Azure, GCP) y un operador de neocloud con capacidad ociosa monetizable ya no se reducesolo a precio de lista y disponibilidad inmediata. Si los neoclouds pueden inyectar ingresos adicionales mediante inferencia en sus的空置 cycles, tienen un incentivo económico más fuerte para mantener precios de token competitivos. No es necesario cambiar infraestructura mañana, pero la presión a la baja en APIs de modelos abiertos como los mencionados podría acrecentarse en el próximo año. En palabras de Chun: «Cuando contamos con proveedores más eficientes, el coste global desciende. Con InferenceSense contribuimos a que esos modelos sean más baratos».

Este movimiento refleja una tendencia mayor: la sofisticación de la capa de infraestructura para IA, donde la eficiencia operativa y la monetización granular de recursos se enmarcan en un ecosistema cada vez más especializado. Mientras la moda física lucha por circularidad y reducción de desperdicios, su gemelo digital —la moda impulsada por modelos generativos— deberá también encontrar fórmulas para que cada bit de capacidad de cómputo rinda al máximo, transformando el idle time en un activo tangible.

Batch continuo activa GPUs inactivas para inferencia en IA.

¿Qué opinas?

Escrito por Redacción - El Semanal

Deja una respuestaCancelar la respuesta

La última locura de Meta con la IA: clonar a Mark Zuckerberg para que sus empleados lo usen

Los 7 nuevos superhéroes de ‘The Boys’, ordenados por escala de poder

Las declaraciones de Donald Trump tras recibir un disparo.

Ampliación del servicio de Comunicaciones en Rico con iPhone, llega a más operadoras con la versión beta 3 de iOS 18.

En qué consiste el bloqueo naval impuesto por Trump a Irán en el estrecho de Ormuz que entra en vigor este lunes

Críticos analizan el impacto y méritos de ‘Wicked: For Good’ en la cultura musical

La Unión Europea lanza plan de choque para contener crisis energética por guerra con Irán – Economía

Chile: Kast presenta megarreforma para impulsar inversión rebajando impuestos – Economía

Dick’s Sporting Goods reporta ventas récord y crecimiento en ventas comparables en Q4

Nike confirma reabastecimiento de Mind 001 y 002 para marzo

La Unión Europea lanza plan de choque para contener crisis energética por guerra con Irán – Economía

Chile: Kast presenta megarreforma para impulsar inversión rebajando impuestos – Economía

Teherán cobra peajes en Ormuz, mientras Estados Unidos inspecciona buques con crudo iraní – Economía

Alzas de tiquetes, menos beneficios, cancelaciones… así sortean las aerolíneas la guerra en Irán – Economía

«El mundo vive la peor crisis energética de su historia»: Agencia Internacional de Energía – Economía

¿Qué opinas?

Deja una respuestaCancelar la respuesta

Log In

With social network:

Or with username:

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Suscríbete a El Semanal