Avec le essor de l’intelligence artificielle générative , les entreprises de technologie recherchent des données de formation pour améliorer leurs modèles — et certaines les utilisent sans autorisation. .
Apple, Nvidia et Anthropic sont parmi les entreprises technologiques à avoir modèles d’IA entraînés avec des sous-titres issus de dizaines de milliers de vidéos YouTube malgré la plateforme règles contre le téléchargement et l’utilisation de son contenu sans autorisation, selon une enquête réalisée par Proof News qui a été co-publiée avec Wired.
L’enquête a révélé que les entreprises utilisaient un ensemble de données appelé Sous-titres YouTube qui comprenait des transcriptions de 173 536 vidéos YouTube provenant de plus de 48 000 chaînes. dans l’ensemble de données qui s’étend des chaînes éducatives telles que la Khan Academy et le MIT, aux sites d’information, y compris le Wall Street Journal, en passant par certains des les meilleurs créateurs de la plateforme comme MrBeast et Marques Brownlee.
« Apple a obtenu des données pour son IA auprès de plusieurs entreprises », a écrit Brownlee dans un communiqué. poster sur X pour répondre à l’enquête. « L’un d’eux a récupéré des tonnes de données/transcriptions de vidéos YouTube, y compris les miennes.
Brownlee a ajouté que même si « Apple évite techniquement la « faute » ici parce que ce ne sont pas eux qui grattent, « cela va être un problème. problème en évolution depuis longtemps.
Preuve Actualités également créé un outil pour que les créateurs recherchent leur contenu dans l’ensemble de données, qui comprenait une poignée de vidéos de Quartz. L’ensemble de données des sous-titres YouTube ne inclure des images de vidéos, mais inclut certains sous-titres traduits dans des langues telles que l’allemand et l’arabe.
L’ensemble de données a été créé par Eleuther AI, « un laboratoire de recherche sur l’IA à but non lucratif » qui est concentré sur « promouvoir les normes de la science ouverte » et fait partie de la compilation, par l’organisation à but non lucratif, de documents provenant d’autres lieux, notamment du Parlement européen et de Wikipédia en anglais. , appelé la Pile, selon Proof News.
« L’ensemble de données Pile mentionné dans le document de recherche a été formé en 2021 à des fins universitaires et de recherche », a déclaré un porte-parole de Salesforce, l’un des des entreprises nommées dans l’enquête pour l’utilisation de l’ensemble de données, a déclaré dans une déclaration partagée avec Quartz. « L’ensemble de données était disponible au public et publié sous une licence permissive.
Ni Apple, ni Nvidia, ni Anthropic n’ont immédiatement répondu à une demande de commentaires.
En avril, Neal Mohan, directeur général de YouTube a dit à Bloomberg que les entreprises utilisant des vidéos YouTube, y compris des transcriptions ou des extraits vidéo, pour former des modèles d’IA tels que le générateur de texte en vidéo d’OpenAI, Sora, être une « violation claire » des politiques de la plateforme. Cependant, le New York Times a rapporté quelques jours plus tard qu’OpenAI avait transcrit plus d’un million d’heures de vidéos YouTube pour entraîner son modèle GPT-4 .
Ce contenu a été traduit automatiquement à partir du texte original. De légères différences résultant de la traduction automatique peuvent apparaître. Pour la version originale, cliquez ici.