in

Cohere potencia capacidad visual en su motor de búsqueda RAG

La empresa Cohere ha mejorado sus capacidades de búsqueda en RAG añadiendo capacidades de búsqueda multimodal a su modelo. Esta actualización permite a los usuarios desplegar imágenes en búsquedas empresariales al estilo de RAG.

El modelo Embed 3, que surgió el año pasado, utiliza modelos de incrustación que transforman los datos en representaciones numéricas. Las incrustaciones se han vuelto fundamentales en la generación aumentada por recuperación (RAG) porque las empresas pueden crear incrustaciones de sus documentos que el modelo puede comparar para obtener la información solicitada por la consulta.

La nueva versión multimodal puede generar incrustaciones tanto en imágenes como en texto. Cohere afirma que Embed 3 es «ahora el modelo de incrustación multimodal más capaz del mercado». Aidan Gonzales, cofundador y CEO de Cohere, publicó un gráfico en X mostrando mejoras en el rendimiento en la búsqueda de imágenes con Embed 3.

«Este avance permite a las empresas desbloquear un valor real de la gran cantidad de datos almacenados en imágenes», dijo Cohere en una publicación de blog. «Las empresas ahora pueden construir sistemas que busquen de forma precisa y rápida activos multimodales importantes como informes complejos, catálogos de productos y archivos de diseño para aumentar la productividad de la fuerza laboral».

Cohere afirma que una mayor atención a lo multimodal amplía el volumen de datos a los que las empresas pueden acceder a través de una búsqueda RAG. Muchas organizaciones suelen limitar las búsquedas RAG a texto estructurado y no estructurado a pesar de tener múltiples formatos de archivos en sus bibliotecas de datos. Los clientes ahora pueden incluir más gráficos, imágenes de productos y plantillas de diseño.

Según Cohere, «Otros modelos tienden a agrupar los datos de texto e imagen en áreas separadas, lo que conduce a resultados de búsqueda débiles sesgados hacia datos solo de texto. Embed 3, por otro lado, prioriza el significado detrás de los datos sin sesgar hacia una modalidad específica».

Embed 3 está disponible en más de 100 idiomas. Cohere dijo que el modelo multimodal Embed 3 ya está disponible en su plataforma y en Amazon SageMaker.

Muchos consumidores están comenzando a familiarizarse rápidamente con la búsqueda multimodal, gracias a la introducción de la búsqueda basada en imágenes en plataformas como Google e interfaces de chat como ChatGPT. A medida que los usuarios individuales se acostumbran a buscar información a partir de imágenes, tiene sentido que deseen tener la misma experiencia en su vida laboral.

Las empresas han comenzado a ver este beneficio, ya que otras compañías que ofrecen modelos de incrustación proporcionan algunas opciones multimodales. Algunos desarrolladores de modelos, como Google y OpenAI, ofrecen algún tipo de incrustación multimodal. Otros modelos de código abierto también pueden facilitar incrustaciones para imágenes y otras modalidades. La lucha ahora se centra en el modelo de incrustaciones multimodales que pueda operar a la velocidad, precisión y seguridad que las empresas demandan.

¿Qué opinas?

120 Votos
Upvote Downvote

Escrito por Redacción - El Semanal

El Semanal: Tu fuente de noticias, tendencias y entretenimiento. Conéctate con lo último en tecnología, cultura, economía y más. Historias que importan, contadas de manera dinámica y accesible. ¡Únete a nuestra comunidad!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

One Comment

  1. ¿¿¿Cómo es posible que Cohere potencie la capacidad visual en un motor de búsqueda RAG??? ¿No debería limitarse a mejorar la precisión de los resultados o algo así?!? Necesito más información sobre esto, ¡es confuso!

La tecnología de captura de movimiento por inteligencia artificial ya está al alcance de tu smartphone

El iPad mini 7 permite restauración inalámbrica desde otro dispositivo iOS.