Las empresas de inteligencia artificial (IA) continúan impactando con sus avances en el desarrollo de chatbots cada vez más sofisticados. Sin embargo, la fuente de los datos de entrenamiento utilizados por gigantes tecnológicos como Apple, Anthropic, Nvidia y Salesforce ha generado controversia en la actualidad.
Según un informe reciente, Eluse Inteligencia Artificial recopiló 173,536 videos de YouTube de más de 48,000 canales para extraer textos sin formato, creando así un conjunto de datos denominado «Subtítulos de YouTube». Este conjunto incluye material de creadores populares como MrBeast y fuentes educativas como Khan Academy, MIT y Harvard, formando parte de un conglomerado de datos utilizado para capacitar modelos de IA.
A pesar de que empresas como Apple, Anthropic, Nvidia y Salesforce no obtienen directamente los datos de YouTube, utilizan el trabajo realizado por EleutherAI para entrenar sus modelos de IA. Esto plantea la pregunta sobre la responsabilidad en caso de infracciones relacionadas con la obtención y uso de datos de terceros para entrenamiento de IA.
Por otro lado, las condiciones de servicio de YouTube prohíben la descarga de videos o transcripciones, asegurando que solo los metadatos como títulos y nombres de canales sean accesibles a través de herramientas como web scraping. Descargar transcripciones o videoclips se considera una «clara violación» de los términos de servicio de la plataforma, lo que puede plantear desafíos en el uso ético de datos para entrenamiento de IA.
En este complejo escenario, se cuestiona el papel de las empresas tecnológicas en la obtención y utilización de datos de entrenamiento para sus modelos de IA, así como la importancia de mantener la transparencia y ética en el desarrollo de estas tecnologías. La generación de conjuntos de datos con información proveniente de fuentes variadas plantea desafíos éticos y legales que deben abordarse para garantizar un uso responsable de la inteligencia artificial.
GIPHY App Key not set. Please check settings