Cómo entrenar tu modelo de IA sin gastar una fortuna en GPUs.

En el mundo empresarial actual, muchas compañías depositan grandes esperanzas en la inteligencia artificial para revolucionar sus negocios. Sin embargo, el camino hacia la implementación de sistemas de IA sofisticados puede obstaculizarse rápidamente por los elevados costos de entrenamiento. Elon Musk ha señalado que los problemas de ingeniería suelen ser la causa del estancamiento del progreso, especialmente al optimizar hardware como las Unidades de Procesamiento Gráfico (GPU) para manejar eficientemente los vastos requisitos computacionales del entrenamiento y ajuste fino de modelos de lenguaje extensos.

A pesar de que las grandes empresas tecnológicas pueden permitirse gastar millones e incluso miles de millones en entrenamiento y optimización, las empresas pequeñas y medianas, así como las startups con presupuestos más limitados, suelen encontrarse en una posición desfavorecida. En este artículo, exploraremos algunas estrategias que pueden permitir a los desarrolladores con recursos limitados entrenar modelos de IA sin quebrar el banco.

Para adentrarnos en este tema, es importante entender que la creación y lanzamiento de un producto de IA, ya sea un modelo de lenguaje extenso (MLM) fundamental o una aplicación derivada afinada, depende en gran medida de chips de IA especializados, específicamente las GPUs. Estas GPUs son tan costosas y difíciles de conseguir que la comunidad de aprendizaje automático ha acuñado los términos «rico en GPUs» y «pobre en GPUs». El entrenamiento de MLM puede resultar costoso principalmente debido a los gastos asociados con el hardware, tanto en adquisición como en mantenimiento, en lugar de los algoritmos de aprendizaje automático o el conocimiento experto.

Entrenar estos modelos requiere una computación extensa en clústeres potentes, con modelos más grandes que requieren aún más tiempo. Por ejemplo, el entrenamiento de LLaMA 2 70B involucra exponer 70 mil millones de parámetros a 2 billones de tokens, lo que requiere al menos 10^24 operaciones de coma flotante. ¿Deberías rendirte si eres pobre en GPUs? No.

Hoy en día, existen varias estrategias que las empresas tecnológicas están utilizando para encontrar soluciones alternativas, reducir la dependencia de hardware costoso y, en última instancia, ahorrar dinero.

Una de las estrategias consiste en ajustar y optimizar el hardware de entrenamiento. Aunque esta vía sigue siendo en gran medida experimental y requiere una inversión considerable, promete una optimización futura del entrenamiento de MLM. Ejemplos de estas soluciones relacionadas con hardware incluyen chips de IA personalizados de Microsoft y Meta, iniciativas de semiconductores de Nvidia y OpenAI, clústeres de cómputo único de Baidu, GPUs de alquiler de Vast y chips Sohu de Etched, entre otros.

Mientras que este enfoque es crucial para el progreso, está más orientado a los grandes jugadores que pueden permitirse invertir fuertemente ahora para reducir gastos después. No es viable para los recién llegados con recursos financieros limitados que deseen crear productos de IA hoy en día.

¿Qué opinas?

120 Votos
Upvote Downvote

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Descubren fósil de colmillo gigante de un mamut en Colombia

Proceso sencillo para argentinos que deseen obtener la ciudadanía española