Stability AI presenta hoy una importante actualización para su tecnología generativa de inteligencia artificial de texto a imagen con el lanzamiento de Stable Diffusion 3.5.
El objetivo clave de esta nueva actualización es elevar el listón y mejorar respecto a la última actualización importante de Stability AI, que la empresa admitió no cumplió con sus propios estándares. La versión 3 de Stable Diffusion se presentó por primera vez en febrero y la versión del modelo abierto se hizo generalmente disponible en junio con el debut de Stable Diffusion 3 Medium. A pesar de que Stability AI fue pionera en el espacio de la inteligencia artificial generativa de texto a imagen, se ha enfrentado cada vez más a una fuerte competencia de numerosos rivales, como Flux Pro de Black Forest Labs, Dall-E de OpenAI, Ideogram y Midjourney.
Con Stable Diffusion 3.5, Stability AI busca recuperar su posición de liderazgo. Los nuevos modelos son altamente personalizables y pueden generar una amplia gama de estilos diferentes. La nueva actualización presenta múltiples variantes de modelos, cada una diseñada para satisfacer diferentes necesidades de los usuarios. Stable Diffusion 3.5 Large es un modelo de 8 mil millones de parámetros que ofrece la mayor calidad y cumplimiento con los comandos en la serie. Stable Diffusion 3.5 Large Turbo es una versión destilada del modelo grande, que proporciona una generación de imágenes más rápida. Completando los nuevos modelos está Stable Diffusion 3.5 Medium, que tiene 2.6 mil millones de parámetros y está optimizado para implementaciones de computación perimetral.
Los tres nuevos modelos Stable Diffusion 3.5 están disponibles bajo la Licencia de la Comunidad de Stability AI, que es una licencia abierta que permite el uso gratuito no comercial y el uso comercial gratuito para entidades con ingresos anuales inferiores a $1 millón. Stability AI tiene una licencia empresarial para implementaciones más grandes. Los modelos están disponibles a través de la API de Stability AI y de Hugging Face.
El lanzamiento original de Stable Diffusion 3 Medium en junio fue menos que ideal. Las lecciones aprendidas de esa experiencia han ayudado a informar y mejorar las nuevas actualizaciones de Stable Diffusion 3.5.
«Identificamos que varias elecciones de modelo y conjunto de datos que hicimos para el modelo Large 8B de Stable Diffusion no eran óptimas para el modelo de tamaño más pequeño Medium», dijo Hanno Basse, CTO de Stability AI a VentureBeat. «Realizamos un análisis exhaustivo de estos cuellos de botella e innovamos aún más en nuestra arquitectura y protocolos de entrenamiento en el modelo Medium para proporcionar un mejor equilibrio entre el tamaño del modelo y la calidad de salida.»
Cómo Stability AI está mejorando la inteligencia artificial generativa de texto a imagen con Stable Diffusion 3.5
Como parte del desarrollo de Stable Diffusion 3.5, Stability AI aprovechó una serie de técnicas novedosas para mejorar la calidad y el rendimiento.
Una adición notable a Stable Diffusion 3.5 es la integración de la Normalización de Consulta-Llave en los bloques de transformadores. Esta técnica facilita un ajuste fino y un mayor desarrollo de los modelos por parte de los usuarios finales. La Normalización de Consulta-Llave hace que el modelo sea más estable para el entrenamiento y el ajuste fino.
«Aunque hemos experimentado con la QK-normalización en el pasado, esta es nuestra primera versión de modelo con esta normalización», explicó Basse. «Tenía sentido usarla para este nuevo modelo ya que priorizamos la personalización.»
Stability AI también ha mejorado su arquitectura Multimodal Diffusion Transformer MMDiT-X, específicamente para el modelo Medium. Stability AI destacó por primera vez el enfoque de la arquitectura MMDiT en abril, cuando la API de Stable Diffusion 3 se hizo disponible. MMDiT es notable porque combina técnicas de modelos de difusión con técnicas de modelos de transformadores. Con las actualizaciones como parte de Stable Diffusion 3.5, MMDiT-X ahora puede ayudar a mejorar la calidad de imagen y también mejorar las capacidades de generación multinivel.
El cumplimiento del comando hace que Stable Diffusion 3.5 sea aún más poderoso
Stability AI informa que Stable Diffusion 3.5 Large demuestra un cumplimiento superior de los comandos en comparación con otros modelos en el mercado.
La promesa de un mejor cumplimiento de los comandos se basa en la capacidad de los modelos para interpretar y representar con precisión los comandos de los usuarios.
«Esto se logra con una combinación de diferentes cosas: una mejor curación de datos, subtitulación y una innovación adicional en los protocolos de entrenamiento», dijo Basse.
La personalización será aún mejor con ControlNets
Mirando hacia el futuro, Stability AI planea lanzar una capacidad ControlNets para Stable Diffusion 3.5.
La promesa de ControlNets es ofrecer más control para varios casos de uso profesionales. Stability AI introdujo por primera vez la tecnología ControlNet como parte de su lanzamiento de SDXL 1.0 en julio de 2023.
«Los ControlNets brindan control espacial sobre diferentes aplicaciones profesionales donde los usuarios, por ejemplo, pueden querer ampliar una imagen manteniendo los colores generales o crear una imagen que siga un patrón de profundidad específico», dijo Basse.
Wow! Qué interesante el nuevo lanzamiento del Stable Diffusion 3.5 para los modelos de ia en generación de imágenes. Parese una herramienta muy potente y útil para mejorar la calidad de las imagenes generadas. Seguro que va a ser de mucha ayuda para muchos usuarios. ¡Excelente noticia!