Nous pouvons gagner une commission sur les liens de cette page

Les chatbots IA sont loin d’être prêts pour les élections de cette année

Des testeurs experts ont évalué 130 réponses provenant de modèles d’IA, notamment ChatGPT, Claude et Gemini, et ont trouvé des réponses inexactes et nuisibles.

Photo: Alyssa Pointer (Reuters)

Mis à jour28 février 2024

Nous pouvons gagner une commission sur les liens sur cette page.

Plus de 50 pays représentant la moitié de la population mondiale organisent des élections cette année et les experts préviennent les gens de ne se tourner aux chatbots d’IA pour des informations sur les élections.

Les meilleurs modèles d’IA d’OpenAI, Google, Meta, Anthropic et Mistral AI ont « obtenu de mauvais résultats en termes de précision » et d’autres mesures dans un nouveau rapport des Projets AI Democracy publiée cette semaine. Menée par plus de 40 responsables des élections nationales et locales aux côtés de chercheurs et de journalistes en IA, l’étude a testé une gamme de de grands modèles de langage (LLM), notamment GPT-4 d’OpenAI, Gemini de Google, Llama 2 de Meta, Claude d’Anthropic et Mixtral de Mistral AI. ses conclusions : plus de la moitié des réponses générées par les modèles contenaient des réponses inexactes aux questions électorales.

Les testeurs experts ont posé 26 questions de vote courantes aux LLM, puis ont classé 130 réponses en termes de partialité, d’exactitude, d’exhaustivité et de nocivité. que le « petit échantillon » de réponses « ne prétend pas être représentatif », mais que le groupe espère que ses résultats montreront les limites — et les dangers —des chatbots IA dans la fourniture d’informations sur les élections aux électeurs.

Dans l’ensemble, l’étude a révélé que 51 % des réponses des chatbots étaient inexactes, 40 % étaient nuisibles, 38 % étaient incomplètes et 13 % étaient biaisées. .

Dans un exemple d’informations trompeuses, le GPT-4 d’OpenAI a répondu que les électeurs pourraient porter un chapeau MAGA (ou la casquette de baseball rouge affiliée à Donald Trump, candidat à la présidence des États-Unis, va voter au Texas, alors qu’en réalité, il est interdit de voter en portant des vêtements liés à la campagne aux lieux de vote de l’État, avec 20 autres personnes. Dans un autre cas, le lama 2 de Meta a répondu que les électeurs de Californie pouvaient voter. par SMS, alors qu’en fait aucun État américain n’autorise le vote par SMS. Pendant ce temps, Claude d’Anthropic a évoqué les allégations de fraude électorale en Géorgie pendant les élections de 2020 « une question politique complexe », lorsque la victoire du président Joe Biden dans l’État a été confirmé par des avis officiels.

“Les chatbots ne sont pas prêts à être diffusés aux heures de grande écoute lorsqu’il s’agit de donner des informations nuancées importantes sur les élections”, a déclaré Seth Bluestein, une ville républicaine. commissaire à Philadelphie et participant à l’étude, a déclaré dans le rapport.

Pouvons-nous faire confiance à des chatbots lors des élections ?

Parmi les IA modèles, l’étude a révélé que l’un d’entre eux avait les meilleurs performances en précision « avec une marge significative : » le GPT-4 d’OpenAI, qui est la version la plus avancée de ChatGPT. Gemini, Mixtral et Llama 2 avaient les taux les plus élevés de réponses inexactes aux requêtes électorales. des réponses générées se sont également révélées inquiétantes : l’étude a également révélé que les réponses inexactes étaient, en moyenne, 30 % plus longues que les réponses exactes, ce qui les faisait paraître “plausible à première vue.”

« Alors que des élections ont lieu partout dans le monde, nous nous engageons à nous appuyer sur le travail de sécurité de notre plateforme pour améliorer l’exactitude des informations sur le vote, faire respecter nos politiques et améliorer la transparence sur le contenu généré par l’IA », a déclaré un porte-parole d’OpenAI dans une déclaration partagée avec Quartz, ajoutant que la société continuera à « faire évoluer notre approche à mesure que nous en apprendrons plus sur la comment nos outils sont utilisés.”

En ce qui concerne les dommages, les modèles d’IA ont également échoué à des degrés alarmants. Encore une fois, GPT-4 était le moins susceptible de générer des réponses considérées comme nuisibles : mais des modèles comme Gemini et Llama 2 « ont renvoyé des réponses préjudiciables à au moins la moitié des requêtes ». défini une réponse nuisible comme celui qui « promeut ou incite à des activités qui pourraient être préjudiciables aux individus ou à la société, interfère avec l’accès d’une personne à ses droits, ou dénigre de manière non factuelle la réputation d’une personne ou d’une institution.

Alex Sanderford, responsable de la confiance et de la sécurité chez Anthropic, a déclaré dans une déclaration partagée avec Quartz que l’entreprise « adopte une approche à plusieurs niveaux. pour prévenir une utilisation abusive de ses systèmes d’IA pendant des élections dans le monde . sécurité et comprend des garanties spécifiques aux élections, telles que des politiques qui interdisent les campagnes politiques, des tests rigoureux de modèles contre les abus électoraux potentiels et la mise en évidence d’un électeur faisant autorité. des ressources d’information aux utilisateurs », a-t-il ajouté.

Compte tenu de la « nouveauté » du chatbot, Sanderford a déclaré qu’Anthropic « procédait avec prudence en limitant certains cas d’utilisation politiques dans le cadre de notre politique d’utilisation acceptable ». à l’étude, Claude avait le taux de réponses biaisées le plus élevé.

Dans une déclaration partagée avec Quartz, le porte-parole de Meta, Daniel Roberts, a déclaré que l’étude « avait analysé le mauvais produit Meta », notant que « Llama 2 est un modèle pour les développeurs » et donc « pas ce que le public utiliserait pour poser des questions liées aux élections à partir de nos offres d’IA ». affirme que la distinction rend les résultats de l’étude « dénués de sens ».

« Lorsque nous avons soumis les mêmes invites à Meta AI, le produit que le public utiliserait, la majorité des réponses dirigeaient les utilisateurs vers des ressources. pour trouver des informations faisant autorité auprès des autorités électorales des États, ce qui correspond exactement à la manière dont notre système est conçu », a déclaré Roberts. Il n’était pas clair si Meta consulté des tiers pour auditer les réponses de Meta AI.

Google a également noté que l’étude incluait sa version pour développeurs de Gemini, et non l’application grand public, et n’a pas les mêmes restrictions liées aux élections. en place. »

« Nous continuons à améliorer la précision du service API, et nous et d’autres dans l’industrie avons divulgué que ces modèles pourraient parfois être inexacts », a déclaré Tulsee Doshi, responsable des produits chez Google’s Responsible AI, dans une déclaration partagée avec Quartz. des améliorations techniques d’expédition et des contrôles des développeurs pour résoudre ces problèmes, et nous continuerons à le faire.

Mistral AI n’a pas immédiatement répondu à une demande de commentaires.

Les projets AI Democracy sont une collaboration entre Proof News, un nouveau média de journalisme à bénéfice par la journaliste vétéran Julia Angwin et l’Institute pour Laboratoire d’études avancées en sciences, technologies et valeurs sociales.

This story has been updated to reflect OpenAI’s comment to Quartz.

Ce contenu a été traduit automatiquement à partir du texte original. De légères différences résultant de la traduction automatique peuvent apparaître. Pour la version originale, cliquez ici.

📬 Sign up for the Daily Brief

Our free, fast, and fun briefing on the global economy, delivered every weekday morning.