Zyphra revoluciona capacitación de modelos para pequeñas empresas con Zyda-2.

Zyphra Technologies, la empresa conocida por su trabajo en sistemas agentes multimodales que combinan investigaciones avanzadas en arquitecturas de modelos de espacio de estado de última generación, memoria a largo plazo y aprendizaje por refuerzo, acaba de lanzar Zyda-2, un conjunto de datos de preentrenamiento abierto que comprende 5 billones de tokens.

Esta nueva versión de Zyda-2 es cinco veces más grande que su predecesora y abarca una amplia gama de temas, destacándose por su composición única. A diferencia de muchos conjuntos de datos abiertos disponibles en Hugging Face, Zyda-2 ha sido destilada para conservar las fortalezas de los mejores conjuntos de datos existentes mientras elimina sus debilidades.

Esto proporciona a las organizaciones la capacidad de entrenar modelos de lenguaje que muestren una alta precisión incluso al operar en dispositivos periféricos y de consumo con un presupuesto de parámetros dado. La empresa entrenó su modelo de lenguaje pequeño Zamba2 utilizando este conjunto de datos y encontró que su rendimiento era significativamente mejor que cuando se utilizaban otros conjuntos de datos de modelado de lenguaje de código abierto de última generación.

Este lanzamiento se produce pocos meses después de la publicación del conjunto de datos original Zyda, que abarcaba una amplia variedad de temas y dominios para garantizar la diversidad y calidad necesaria para el entrenamiento de modelos de lenguaje competitivos.

¿Qué aporta Zyda-2?

A principios de este año, como parte del esfuerzo por construir modelos pequeños altamente potentes que pudieran automatizar una variedad de tareas de manera económica, Zyphra fue más allá de la investigación de arquitecturas de modelos para empezar a construir un conjunto de datos de preentrenamiento personalizado combinando los mejores conjuntos de datos abiertos con licencias permisivas, reconocidos como de alta calidad dentro de la comunidad.

La primera versión de este trabajo, Zyda con 1.3 billones de tokens, debutó en junio como una mezcla filtrada y deduplicada de conjuntos de datos abiertos premium existentes, específicamente RefinedWeb, Starcoder C4, Pile, Slimpajama, pe2so y arxiv.

En aquel momento, Zyda tuvo un mejor rendimiento que los conjuntos de datos sobre los que se construyó, ofreciendo a las empresas una opción abierta sólida para el entrenamiento. Sin embargo, 1.3 billones de tokens nunca iban a ser suficientes. La empresa necesitaba escalar y elevar el estándar de rendimiento, lo que la llevó a establecer un nuevo pipeline de procesamiento de datos y desarrollar Zyda-2.

En esencia, Zyphra construyó sobre Zyda-1, mejorándolo aún más con tokens de código abierto de DCLM, FineWeb-Edu y la porción Common-Crawl de Dolma v1.7. La versión original de Zyda se creó con el propio pipeline de procesamiento basado en CPU de la empresa, pero para la última versión, utilizaron NeMo Curator de Nvidia, una biblioteca de curación de datos acelerada por GPU. Esto les ayudó a reducir el coste total de propiedad en un 2x y procesar los datos 10x más rápido, de tres semanas a dos días.

«Realizamos una deduplicación cruzada entre todos los conjuntos de datos. Creemos que esto aumenta la calidad por token, ya que elimina los documentos duplicados del conjunto de datos. A partir de ahí, realizamos un filtrado de calidad basado en modelos en Zyda-1 y Dolma-CC utilizando el clasificador de calidad de NeMo Curator, conservando solo el subconjunto de «alta calidad» de estos conjuntos de datos», escribió Zyphra en una publicación de blog.

Este trabajo creó un conjunto de datos perfecto en forma de Zyda-2, lo que llevó a una mejora en el rendimiento del modelo. Como señaló Nvidia en una publicación de blog de desarrolladores separada, el nuevo conjunto de datos combina los mejores elementos de conjuntos de datos adicionales utilizados en el pipeline con muchos ejemplos educativos de alta calidad para el razonamiento lógico y el conocimiento factual. Mientras tanto, el componente Zyda-1 proporciona más diversidad y variedad y destaca en más tareas lingüísticas y de escritura.

El conjunto de datos destilado lleva a una mejora en el rendimiento del modelo

En un estudio de ablación, el entrenamiento de Zamba2-2.7B con Zyda-2 llevó a la puntuación de evaluación agregada más alta en los principales benchmarks, incluyendo MMLU, Hellaswag, Piqa, Winogrande, Arc-Easy y Arc-Challenge. Esto muestra que la calidad del modelo mejora al entrenar con el conjunto de datos destilado en comparación con el entrenamiento con conjuntos de datos abiertos individuales.

Rendimiento de Zyda-2

«Aunque cada conjunto de datos componente tiene sus propias fortalezas y debilidades, el conjunto de datos combinado Zyda-2 puede llenar estas brechas. El presupuesto total de entrenamiento para obtener una calidad de modelo dada se reduce en comparación con la combinación ingenua de estos conjuntos de datos a través de la deduplicación y el filtrado agresivo», añadió el blog de Nvidia.

En última instancia, la empresa espera que este trabajo allane el camino para que los modelos pequeños de mejor calidad ayuden a las empresas a maximizar la calidad y eficiencia con restricciones específicas de memoria y latencia, tanto para implementaciones en dispositivos como en la nube.

Los equipos ya pueden empezar a trabajar con el conjunto de datos Zyda-2 descargándolo directamente desde Hugging Face. Viene con una licencia ODC-By que permite a los usuarios entrenar o construir sobre Zyda-2 sujeto a los acuerdos de licencia y condiciones de uso de las fuentes de datos originales.

One Comment

Sort by

¡Increíble avance en la capacitación de modelos para PEQUEÑAS EMPRESAS! 💡¡Zyphra siempre innovando! 👏

Responder

Zyphra revoluciona capacitación de modelos para pequeñas empresas con Zyda-2.

¿Qué opinas?

Escrito por Redacción - El Semanal

Deja una respuestaCancelar la respuesta

One Comment

El número de registro empresarial define la identidad legal de tu negocio

Los 5 pilares esenciales para una onboarding exitoso en tu negocio

Ampliación del servicio de Comunicaciones en Rico con iPhone, llega a más operadoras con la versión beta 3 de iOS 18.

Dos fuertes sismos en el Pacífico ruso activan alerta por tsunami

El flamante rascacielos de Dubai prioriza la vida saludable desde su construcción.

Tone de Kai Cenat y AMP lanza su línea en Target ahora

ApertureData revoluciona el procesamiento de datos para empresas con tecnología innovadora.

Elementos esenciales en un website para pequeñas empresas.

El nuevo Ferrari F80 rompe barreras con sus 1.200 caballos de potencia.

India niega uso de criminales para atacar separatistas sijs en Canadá.

Incendio forestal en expansión obliga a evacuar a miles al norte de Los Ángeles

Líderes religiosos respaldan a migrantes en riesgo de deportación en California del Sur

La crítica analiza el impacto y relevancia de la nueva producción cinematográfica

El número de registro empresarial define la identidad legal de tu negocio

Altas temperaturas elevan el riesgo de que resurga el mayor incendio en décadas en Francia

¿Qué opinas?

Deja una respuestaCancelar la respuesta

One Comment

Log In

With social network:

Or with username:

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Suscríbete a El Semanal