in

Zyphra revoluciona capacitación de modelos para pequeñas empresas con Zyda-2.

Zyphra Technologies, la empresa conocida por su trabajo en sistemas agentes multimodales que combinan investigaciones avanzadas en arquitecturas de modelos de espacio de estado de última generación, memoria a largo plazo y aprendizaje por refuerzo, acaba de lanzar Zyda-2, un conjunto de datos de preentrenamiento abierto que comprende 5 billones de tokens.

Esta nueva versión de Zyda-2 es cinco veces más grande que su predecesora y abarca una amplia gama de temas, destacándose por su composición única. A diferencia de muchos conjuntos de datos abiertos disponibles en Hugging Face, Zyda-2 ha sido destilada para conservar las fortalezas de los mejores conjuntos de datos existentes mientras elimina sus debilidades.

Esto proporciona a las organizaciones la capacidad de entrenar modelos de lenguaje que muestren una alta precisión incluso al operar en dispositivos periféricos y de consumo con un presupuesto de parámetros dado. La empresa entrenó su modelo de lenguaje pequeño Zamba2 utilizando este conjunto de datos y encontró que su rendimiento era significativamente mejor que cuando se utilizaban otros conjuntos de datos de modelado de lenguaje de código abierto de última generación.

Este lanzamiento se produce pocos meses después de la publicación del conjunto de datos original Zyda, que abarcaba una amplia variedad de temas y dominios para garantizar la diversidad y calidad necesaria para el entrenamiento de modelos de lenguaje competitivos.

¿Qué aporta Zyda-2?

A principios de este año, como parte del esfuerzo por construir modelos pequeños altamente potentes que pudieran automatizar una variedad de tareas de manera económica, Zyphra fue más allá de la investigación de arquitecturas de modelos para empezar a construir un conjunto de datos de preentrenamiento personalizado combinando los mejores conjuntos de datos abiertos con licencias permisivas, reconocidos como de alta calidad dentro de la comunidad.

La primera versión de este trabajo, Zyda con 1.3 billones de tokens, debutó en junio como una mezcla filtrada y deduplicada de conjuntos de datos abiertos premium existentes, específicamente RefinedWeb, Starcoder C4, Pile, Slimpajama, pe2so y arxiv.

En aquel momento, Zyda tuvo un mejor rendimiento que los conjuntos de datos sobre los que se construyó, ofreciendo a las empresas una opción abierta sólida para el entrenamiento. Sin embargo, 1.3 billones de tokens nunca iban a ser suficientes. La empresa necesitaba escalar y elevar el estándar de rendimiento, lo que la llevó a establecer un nuevo pipeline de procesamiento de datos y desarrollar Zyda-2.

En esencia, Zyphra construyó sobre Zyda-1, mejorándolo aún más con tokens de código abierto de DCLM, FineWeb-Edu y la porción Common-Crawl de Dolma v1.7. La versión original de Zyda se creó con el propio pipeline de procesamiento basado en CPU de la empresa, pero para la última versión, utilizaron NeMo Curator de Nvidia, una biblioteca de curación de datos acelerada por GPU. Esto les ayudó a reducir el coste total de propiedad en un 2x y procesar los datos 10x más rápido, de tres semanas a dos días.

«Realizamos una deduplicación cruzada entre todos los conjuntos de datos. Creemos que esto aumenta la calidad por token, ya que elimina los documentos duplicados del conjunto de datos. A partir de ahí, realizamos un filtrado de calidad basado en modelos en Zyda-1 y Dolma-CC utilizando el clasificador de calidad de NeMo Curator, conservando solo el subconjunto de «alta calidad» de estos conjuntos de datos», escribió Zyphra en una publicación de blog.

Este trabajo creó un conjunto de datos perfecto en forma de Zyda-2, lo que llevó a una mejora en el rendimiento del modelo. Como señaló Nvidia en una publicación de blog de desarrolladores separada, el nuevo conjunto de datos combina los mejores elementos de conjuntos de datos adicionales utilizados en el pipeline con muchos ejemplos educativos de alta calidad para el razonamiento lógico y el conocimiento factual. Mientras tanto, el componente Zyda-1 proporciona más diversidad y variedad y destaca en más tareas lingüísticas y de escritura.

El conjunto de datos destilado lleva a una mejora en el rendimiento del modelo

En un estudio de ablación, el entrenamiento de Zamba2-2.7B con Zyda-2 llevó a la puntuación de evaluación agregada más alta en los principales benchmarks, incluyendo MMLU, Hellaswag, Piqa, Winogrande, Arc-Easy y Arc-Challenge. Esto muestra que la calidad del modelo mejora al entrenar con el conjunto de datos destilado en comparación con el entrenamiento con conjuntos de datos abiertos individuales.

Rendimiento de Zyda-2

«Aunque cada conjunto de datos componente tiene sus propias fortalezas y debilidades, el conjunto de datos combinado Zyda-2 puede llenar estas brechas. El presupuesto total de entrenamiento para obtener una calidad de modelo dada se reduce en comparación con la combinación ingenua de estos conjuntos de datos a través de la deduplicación y el filtrado agresivo», añadió el blog de Nvidia.

En última instancia, la empresa espera que este trabajo allane el camino para que los modelos pequeños de mejor calidad ayuden a las empresas a maximizar la calidad y eficiencia con restricciones específicas de memoria y latencia, tanto para implementaciones en dispositivos como en la nube.

Los equipos ya pueden empezar a trabajar con el conjunto de datos Zyda-2 descargándolo directamente desde Hugging Face. Viene con una licencia ODC-By que permite a los usuarios entrenar o construir sobre Zyda-2 sujeto a los acuerdos de licencia y condiciones de uso de las fuentes de datos originales.

¿Qué opinas?

120 Votos
Upvote Downvote

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

One Comment

El nuevo Ferrari F80 rompe barreras con sus 1.200 caballos de potencia.

India niega uso de criminales para atacar separatistas sijs en Canadá.