OpenAI aurait transcrit plus d’un million d’heures de vidéos YouTube pour entraîner GPT-4, selon Le New York Times le samedi. Le rapport arrive quelques jours seulement après que le PDG de YouTube, Neal Mohan, a déclaré avoir transcrit Vidéos YouTube pour la formation en IA serait un “violation claire» de ses politiques dans une interview de Bloomberg.
« Lorsqu’un créateur télécharge son travail acharné sur notre plateforme, il a certaines attentes. L’une de ces attentes est que les conditions de service soient respectées. va être respecté », a déclaré Mohan dans une interview avec Bloomberg. la semaine dernière. « Mais cela ne permet pas de télécharger des éléments comme des transcriptions ou des extraits vidéo. »
Le rapport du New York Times allègue que les membres de l’équipe OpenAI, y compris le président Greg Brockman, ont personnellement aidé à collecter les vidéos YouTube, selon des sources. L’article détaille comment OpenAI, et de nombreuses entreprises technologiques, ont des difficultés à collecter suffisamment de données pour former des modèles d’IA massifs. OpenAI aurait utilisé Whisper , son logiciel de transcription d’IA, pour collecter plus de données pour entraîner GPT-4, le dernier et le meilleur modèle sous-jacent à ChatGPT.
OpenAI et Google n’ont pas immédiatement répondu aux demandes de commentaires de Gizmodo.
Le rapport du New York Times pourrait avoir des implications massives pour OpenAI et la bataille en cours de Google à l’avant-garde du développement de l’IA générative. Google est peu probable d’y aller discrètement si OpenAI utilise son contenu pour rendre ChatGPT encore plus grand. Cependant, la société n’a pas encore fait de telles allégations. Dans une déclaration à Le bord Ce week-end, un porte-parole de Google a simplement déclaré qu’il avait « vu des rapports non confirmés » sur la formation d’OpenAI.
YouTube conditions de service interdire à tout utilisateur de télécharger son contenu, y compris l’utilisation de botnets ou de scrapers, à moins qu’il n’ait des autorisations claires de la part de l’entreprise. interdit également d’utiliser son contenu pour toute utilisation « indépendante » de son service.
La directrice de la technologie d’OpenAI, Mira Murati, a déclaré qu’elle était ”pas sûr“ si des vidéos YouTube ont été utilisées pour former le modèle d’IA de conversion texte-vidéo de son entreprise ; Sora à la demande de Le Journal de Wall Street en mars. Le rapport du New York Times ne mentionne rien à propos de Sora, ni de vrais mordus de YouTube. Cependant, son hésitation à répondre à cette question cela conduit directement à une plus grande spéculation.
Le New York Times, lui-même, est en une bataille de droits d’auteur avec OpenAI à l’heure actuelle. OpenAI et Meta sont également poursuivis par un certain nombre d’auteurs et de sociétés de contenu pour avoir formé leur IA sur des droits d’auteur. fonctionne.
Si ces rapports sont vrais, cela pourrait soulever des questions entièrement nouvelles sur la loi sur le droit d’auteur dans le monde de l’IA. La plupart des plaintes pour droits d’auteur concernant l’IA ont été apporté par de petits éditeurs, mais Google pourrait ajouter un poids réel derrière ce combat s’il choisit d’y participer. un moyen pour Google de ralentir OpenAI, qui est sans aucun doute en train de remporter la course à l’IA en ce moment.
Une version de cet article paru à l’origine sur Gizmodo.
Ce contenu a été traduit automatiquement à partir du texte original. De légères différences résultant de la traduction automatique peuvent apparaître. Pour la version originale, cliquez ici.