Salesforce ha lanzado recientemente una nueva suite de modelos multimodales de IA de código abierto, denominados xGen-MM, que podrían acelerar la investigación y el desarrollo de sistemas de inteligencia artificial más capaces.
Estos modelos representan un avance significativo en la capacidad de la IA para entender y generar contenido que combina texto, imágenes y otros tipos de datos. Según los investigadores de Salesforce AI Research, la framework xGen-MM incluye modelos pre-entrenados, conjuntos de datos y código para ajustes finos. El modelo más grande, con 4 mil millones de parámetros, ha logrado un rendimiento competitivo en varias pruebas en comparación con modelos de código abierto de tamaño similar.
La principal innovación de xGen-MM es su capacidad para manejar datos «entrelazados» que combinan múltiples imágenes y texto, lo que los investigadores describen como «la forma más natural de datos multimodales». Esta capacidad permite que los modelos realicen tareas complejas como responder preguntas sobre múltiples imágenes simultáneamente, una habilidad que podría resultar invaluable en aplicaciones del mundo real, desde diagnósticos médicos hasta vehículos autónomos.
La liberación de estos modelos por parte de Salesforce podría acelerar significativamente la innovación en el campo de la IA. Al proporcionar acceso a modelos y conjuntos de datos de alta calidad, la empresa está permitiendo que un mayor número de participantes contribuyan al avance de la IA. Sin embargo, la difusión de modelos tan potentes también plantea importantes preguntas sobre los riesgos potenciales y los impactos sociales de sistemas de IA cada vez más capaces.
Los modelos xGen-MM fueron entrenados en conjuntos de datos masivos curados por el equipo de Salesforce, incluido un conjunto de datos a escala de billones de tokens de datos entrelazados de imagen y texto llamado «MINT-1T». La empresa también creó nuevos conjuntos de datos centrados en el reconocimiento óptico de caracteres y el anclaje visual, áreas que son cruciales para que los sistemas de IA interactúen de manera más natural con el mundo visual.
A medida que los sistemas de IA se vuelven más avanzados y ubicuos, la liberación de código abierto de Salesforce proporciona herramientas valiosas para que los investigadores comprendan y mejoren estas potentes tecnologías. Además, sienta un precedente de transparencia en un campo a menudo criticado por su falta de apertura, lo que podría presionar a otras empresas tecnológicas a ser más francas con su propia investigación y desarrollo de IA.
Los códigos, modelos y conjuntos de datos para xGen-MM ya están disponibles en el repositorio de GitHub de Salesforce, con más recursos próximamente en el sitio web del proyecto. A medida que investigadores y desarrolladores comienzan a explorar y construir sobre estos modelos, el verdadero impacto de la contribución de Salesforce al campo de la IA multimodal se hará más claro en los próximos meses y años.
GIPHY App Key not set. Please check settings