ChatGPT ne respecte pas la loi sur le droit d’auteur, selon les chercheurs

PatronusAI, qui évalue les erreurs des modèles d’IA, a déclaré que les chatbots généraient du contenu protégé par le droit d’auteur à un « taux élevé ».

Nous pouvons gagner une commission sur les liens sur cette page.
Sam Altman s’exprimant devant un écran affichant le bouclier de droits d’auteur de Microsoft
Sam Altman, PDG d’OpenAI, s’exprime lors de l’événement DevDay d’OpenAI le 6 novembre 2023.
Photo: Justin Sullivan (Getty Images)

En tant qu’artistes, écrivains et autres créateurs plaider pour une réglementation de l’IA pour protéger leur travail et leurs moyens de subsistance, et les créateurs de chatbots OpenAI et Anthropic font face à des poursuites pour droits d’auteur de la part de personnes comme auteurs, le New York Times, et Groupe de musique universelrecherche publiée mercredi J’ai découvert que certains des meilleurs modèles d’IA disponibles aujourd’hui génèrent du « contenu protégé par le droit d’auteur à un taux alarmant ».

Publicité

Patronus AI, une startup cofondée par d’anciens chercheurs de Meta et centrée sur l’évaluation et le test des LLM, qui alimentent des chatbots populaires, pour des erreurs, a publié mercredi son outil CopyrightCatcher, qu’il a appelé « notre solution pour détecter les violations potentielles du droit d’auteur dans les LLM ».

La société a évalué quatre principaux modèles d’IA pour les droits d’auteur : le GPT-4 d’OpenAI, le Claude 2.1 d’Anthropic, le Mixtral de Mistral et le Llama 2 de Meta. quatre modèles, dont deux open-source et deux dont sont fermés, GPT-4, la version la plus avancée de ChatGPT, a généré le contenu le plus protégé par le droit d’auteur avec 44 %. Mixtral a généré du contenu protégé par le droit d’auteur sur 22 % des invites, Llama 2 a généré du contenu protégé par le droit d’auteur sur 10 % des invites, et Claude 2.1 générait du contenu protégé sur 8% des invites, selon la recherche.

Publicité

Patronus AI a testé les modèles en utilisant des livres sous protection du droit d’auteur, y compris Fille disparue par Gillian Flynn et Un Jeu de Trônes par George RR Martin, mais a noté que certaines générations peuvent être couvertes par les lois sur l’utilisation équitable aux États-Unis. Les chercheurs ont demandé au chatbot le premier passage de ou pour compléter le texte des livres.

Publicité

Lire la suite: Les plus grosses erreurs des chatbots IA (jusqu’à présent)

Les résultats des tests ont montré des textes de livres complétés par GPT-4 dans 60 % du temps et ont généré le premier passage dans 26 % du temps. Claude a complété des textes de livres 16% du temps, mais généra le premier passage 0% du temps. Mixtral généra le premier passage de livres lorsque on y a demandé 38 % du temps, et passages terminés 6% du temps. Llama générait les premiers passages et terminait les textes 10% de l’époque.

Publicité

« Peut-être que ce qui a été surprenant, c’est que nous avons découvert que le GPT-4 d’OpenAI, qui est sans doute le modèle le plus puissant utilisé par un De nombreuses entreprises, ainsi que des développeurs individuels, ont produit du contenu protégé par le droit d’auteur sur 44 % des invites que nous avons construites », Rebecca Qian, cofondatrice et chef de la technologie. officier chez Patronus AI, a déclaré à CNBC.

OpenAI, Mistral, Meta et Anthropic n’ont pas immédiatement répondu à une demande de commentaires.

Publicité

Comme les LLM sont formés sur des données, y compris des travaux protégés par le droit d’auteur, Patronus AI a déclaré qu’il est « assez facile » pour un LLM de générer des reproductions exactes du travail, et qu’il est important de détecter ces erreurs pour éviter des poursuites judiciaires et des risques pour la réputation d’une entreprise.

Ce contenu a été traduit automatiquement à partir du texte original. De légères différences résultant de la traduction automatique peuvent apparaître. Pour la version originale, cliquez ici.

Publicité