Google Cloud Run incorpora GPUs de Nvidia para inferencia de IA sin servidor
Google Cloud está presentando una nueva integración que promete cambiar la forma en que se despliegan las aplicaciones de inteligencia artificial. Hasta ahora, las organizaciones que necesitaban ofrecer inferencia de IA debían ejecutar instancias en la nube durante largos períodos de tiempo o provisionar hardware localmente. Sin embargo, con la incorporación de Nvidia L4 GPUs en Google Cloud Run, las organizaciones ahora pueden realizar inferencia sin servidor.
La idea detrás de los servicios sin servidor es que funcionan solo cuando es necesario y los usuarios pagan solo por lo que utilizan, a diferencia de una instancia en la nube típica que se ejecuta durante un tiempo establecido. En este caso, un servicio sin servidor, como una GPU para inferencia, se activa y utiliza solo cuando es necesario.
La inferencia sin servidor puede implementarse con una Nvidia NIM y otros marcos como VLLM, Pytorch y Ollama. La adición de las GPUs Nvidia L4 se encuentra actualmente en fase de previsualización.
Cloud Run, la plataforma totalmente gestionada sin servidor de Google, ha sido popular entre los desarrolladores por su capacidad para simplificar la implementación y la gestión de contenedores. Sin embargo, las demandas crecientes de cargas de trabajo de IA, especialmente aquellas que requieren procesamiento en tiempo real, han destacado la necesidad de recursos computacionales más robustos.
La integración de soporte de GPU ofrece diversas posibilidades a los desarrolladores de Cloud Run, incluyendo inferencia en tiempo real con modelos abiertos ligeros, como Gemma 2B/7B o Llama3 (8B), generación de modelos generativos específicos de marcas y servicios intensivos en computación como reconocimiento de imágenes y transcodificación de video.
Una preocupación común con los servicios sin servidor es el rendimiento, dado que suele haber una demora al activar el servicio cuando no está en uso. No obstante, Google Cloud está demostrando una respuesta rápida en las nuevas instancias de Cloud Run habilitadas con GPU, con tiempos de inicio en frío que van desde 11 a 35 segundos para varios modelos.
En cuanto al coste, la promesa de los servicios sin servidor es una mejor utilización del hardware, lo que se traduce en costes más bajos. Si será más barato para una organización proveer la inferencia de IA como un servicio sin servidor o como una instancia habitual es una pregunta más compleja que depende de la aplicación y el patrón de tráfico esperado. Google Cloud actualizará su calculadora de precios para reflejar los nuevos precios de GPU con Cloud Run, lo que permitirá a los clientes comparar el coste total de operaciones en diversas plataformas.
GIPHY App Key not set. Please check settings