La revolución de los modelos de lenguaje: cómo un nuevo variante alemán acelera la inteligencia artificial
En un avance significativo en el campo de la inteligencia artificial, una empresa de consultoría tecnológica alemana, TNG Technology Consulting GmbH, ha presentado una nueva versión de un modelo de lenguaje de gran tamaño, denominado DeepSeek-TNG R1T2 Chimera. Este modelo no solo iguala la capacidad de razonamiento de su predecesor, sino que lo hace a una velocidad considerablemente mayor.
El modelo original, DeepSeek-R1-0528, lanzado por la startup china DeepSeek, causó sensación en la comunidad de inteligencia artificial y empresarial por su alto rendimiento en tareas de razonamiento y su costo de entrenamiento relativamente bajo. Disponible gratuitamente para desarrolladores y empresas bajo la licencia permisiva Apache 2.0, rápidamente fue adaptado y mejorado por otros laboratorios y desarrolladores de inteligencia artificial.

La novedosa versión, DeepSeek-TNG R1T2 Chimera, creada por TNG, destaca por su eficiencia y velocidad. Según las pruebas comparativas presentadas por la empresa, R1T2 logra entre el 90% y el 92% del rendimiento de razonamiento de DeepSeek-R1-0528, pero con respuestas mucho más concisas y, lo que es más importante, a una velocidad un 200% mayor.
Este aumento de velocidad se logra gracias al método de «Assembly-of-Experts» (AoE) desarrollado por TNG, una técnica para construir modelos de lenguaje de gran tamaño mediante la combinación selectiva de los parámetros de múltiples modelos pre-entrenados. A diferencia de otros enfoques como «Mixture-of-Experts» (MoE), AoE no se basa en la activación condicional de componentes, sino en la interpolación de los parámetros de los modelos para crear uno nuevo.
DeepSeek-TNG R1T2 Chimera combina las capacidades de razonamiento de DeepSeek-R1-0528, los patrones de pensamiento estructurados de DeepSeek-R1 y el comportamiento conciso y orientado a instrucciones de DeepSeek-V3-0324. El resultado es un modelo que mantiene una alta capacidad de razonamiento pero reduce significativamente los costos y tiempos de inferencia.
Para las empresas y los responsables técnicos, R1T2 ofrece varias ventajas. Su capacidad para generar respuestas inteligentes de manera más rápida y con menos tokens puede reducir sustancialmente los costos de infraestructura y energía. Además, su licencia MIT permite su uso y modificación para aplicaciones comerciales, lo que ofrece un alto grado de control y personalización.
Sin embargo, es importante tener en cuenta que, por ahora, el modelo puede no ser adecuado para aplicaciones que requieren la invocación de funciones o el uso de herramientas avanzadas. La empresa aconseja evaluar su conformidad con la Ley de Inteligencia Artificial de la UE, que entrará en vigor el 2 de agosto de 2025.
En resumen, la aparición de DeepSeek-TNG R1T2 Chimera marca un paso importante en la evolución de los modelos de lenguaje, ofreciendo mayor eficiencia, velocidad y capacidad de razonamiento. Su disponibilidad bajo una licencia permisiva lo convierte en una opción atractiva para desarrolladores y empresas que buscan impulsar sus aplicaciones de inteligencia artificial.

GIPHY App Key not set. Please check settings