Google Cloud Run incorpora GPUs de Nvidia para inferencia de IA sin servidor.

Google Cloud Run incorpora GPUs de Nvidia para inferencia de IA sin servidor

Google Cloud está presentando una nueva integración que promete cambiar la forma en que se despliegan las aplicaciones de inteligencia artificial. Hasta ahora, las organizaciones que necesitaban ofrecer inferencia de IA debían ejecutar instancias en la nube durante largos períodos de tiempo o provisionar hardware localmente. Sin embargo, con la incorporación de Nvidia L4 GPUs en Google Cloud Run, las organizaciones ahora pueden realizar inferencia sin servidor.

La idea detrás de los servicios sin servidor es que funcionan solo cuando es necesario y los usuarios pagan solo por lo que utilizan, a diferencia de una instancia en la nube típica que se ejecuta durante un tiempo establecido. En este caso, un servicio sin servidor, como una GPU para inferencia, se activa y utiliza solo cuando es necesario.

La inferencia sin servidor puede implementarse con una Nvidia NIM y otros marcos como VLLM, Pytorch y Ollama. La adición de las GPUs Nvidia L4 se encuentra actualmente en fase de previsualización.

Cloud Run, la plataforma totalmente gestionada sin servidor de Google, ha sido popular entre los desarrolladores por su capacidad para simplificar la implementación y la gestión de contenedores. Sin embargo, las demandas crecientes de cargas de trabajo de IA, especialmente aquellas que requieren procesamiento en tiempo real, han destacado la necesidad de recursos computacionales más robustos.

La integración de soporte de GPU ofrece diversas posibilidades a los desarrolladores de Cloud Run, incluyendo inferencia en tiempo real con modelos abiertos ligeros, como Gemma 2B/7B o Llama3 (8B), generación de modelos generativos específicos de marcas y servicios intensivos en computación como reconocimiento de imágenes y transcodificación de video.

Una preocupación común con los servicios sin servidor es el rendimiento, dado que suele haber una demora al activar el servicio cuando no está en uso. No obstante, Google Cloud está demostrando una respuesta rápida en las nuevas instancias de Cloud Run habilitadas con GPU, con tiempos de inicio en frío que van desde 11 a 35 segundos para varios modelos.

En cuanto al coste, la promesa de los servicios sin servidor es una mejor utilización del hardware, lo que se traduce en costes más bajos. Si será más barato para una organización proveer la inferencia de IA como un servicio sin servidor o como una instancia habitual es una pregunta más compleja que depende de la aplicación y el patrón de tráfico esperado. Google Cloud actualizará su calculadora de precios para reflejar los nuevos precios de GPU con Cloud Run, lo que permitirá a los clientes comparar el coste total de operaciones en diversas plataformas.

Google Cloud Run incorpora GPUs de Nvidia para inferencia de IA sin servidor.

¿Qué opinas?

Escrito por Redacción - El Semanal

Deja una respuestaCancelar la respuesta

¡Cuidado! Estos síntomas te indican que podrías tener la hemoglobina baja

Ampliación del servicio de Comunicaciones en Rico con iPhone, llega a más operadoras con la versión beta 3 de iOS 18.

Tone de Kai Cenat y AMP lanza su línea en Target ahora

La familia de Hulk Hogan: conoce a su esposa e hijos

Carney advierte que el T-MEC no soluciona todos los conflictos comerciales con EE.UU.

Claves esenciales para formar y retener el talento en tu empresa

Detienen a sospechoso por agresión con arma blanca en autobús en Winnipeg

Autoridades informan sobre detención de ciudadano canadiense en Rusia.

Carney advierte que el T-MEC no soluciona todos los conflictos comerciales con EE.UU.

¿Qué opinas?

Deja una respuestaCancelar la respuesta

Log In

With social network:

Or with username:

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Suscríbete a El Semanal