AI research by Anthropic sheds light on 'black box'

Publié23 mai 2024

Nous pouvons gagner une commission sur les liens sur cette page.

Image de l'article intitulé Une copie d’une nouvelle recherche anthropique met en lumière la « boîte noire » de l’IA — Photo: Andrej Sokolow/picture alliance (Getty Images)

Même s’ils sont créés par des humains, les grands modèles de langage restent encore assez mystérieux. Les algorithmes à indice d’octane élevé qui alimentent notre technologie actuelle Le boom de l’intelligence artificielle a une manière de faire des choses qui ne sont pas explicables extérieurement pour les personnes qui les observent. C’est pourquoi l’IA a largement été surnommé une « boîte noire » un phénomène qui n’est pas facilement compréhensible de l’extérieur. Une recherche récemment publiée par Anthropic, l’une des meilleures entreprises du secteur de l’IA, tente de faire la lumière sur les aspects les plus déroutants. du comportement algorithmique de l’IA. Mardi, Anthropic a publié un document de recherche conçu pour expliquer pourquoi son chatbot IA, Claude, choisit de générer du contenu sur certains sujets plutôt que sur d’autres.Systèmes d’IA

sont mis en place dans une approximation grossière du cerveau humain, des réseaux neuronaux en couches qui absorbent et traitent les informations, puis prennent des « décisions » ou des prédictions basées sur cette information. Ces systèmes sont « entraînés » sur de grands sous-ensembles de données, ce qui leur permet d’établir des connexions algorithmiques. Lorsque les systèmes d’IA produisent données basées sur leur formation, cependant, les observateurs humains ne savent pas toujours comment l’algorithme est arrivé à ce résultat. Ce mystère a donné naissance au domaine de

Interprétation de l’IA», où les chercheurs tentent de retracer le chemin de la prise de décision de la machine afin de pouvoir comprendre ses résultats. Dans le domaine de l’IA interprétation, une « fonctionnalité » fait référence à un modèle de “neurones”

au sein d’un réseau neuronal – en fait, un concept auquel l’algorithme peut se référer. Plus il y a de « fonctionnalités » dans un réseau neuronal que les chercheurs peuvent comprendre, plus ils peuvent comprendre comment certaines entrées déclenchent le réseau pour affecter certaines sorties. Dans un mémo Sur la base de leurs découvertes, les chercheurs d’Anthropic expliquent comment ils ont utilisé un processus appelé « apprentissage du dictionnaire » pour déchiffrer quelles sont les parties du réseau neuronal de Claude. mappés à des concepts spécifiques. Grâce à cette méthode, les chercheurs affirment qu’ils ont pu « commencer à comprendre le comportement du modèle en voyant quelles fonctionnalités répondent à une entrée particulière, nous donnant ainsi un aperçu du « raisonnement » du modèle sur la manière dont il est arrivé à une réponse donnée.Dans une interview avec l’équipe de recherche d’Anthropic réalisée

par Steven Levy de Wired, les membres du personnel ont expliqué ce que cela signifiait de déchiffrer le fonctionnement du « cerveau » de Claude. Une fois qu’ils avaient compris comment décrypter une caractéristique, cela en a conduit à d’autres : Une caractéristique qui leur a marqué était associée au pont du Golden Gate. Ils ont cartographié l’ensemble des neurones qui, lorsqu’ils sont déclenchés, ensemble, indiquait que Claude « réfléchissait » à la structure massive qui relie San Francisco au comté de Marin. De plus, lorsque des ensembles similaires de Les neurones déclenchés ont évoqué des sujets adjacents au pont du Golden Gate : Alcatraz, le gouverneur de Californie Gavin Newsom et le film d’Hitchcock.

vertige, qui se déroule à San Francisco. Tout cela dit, l’équipe a identifié des millions de fonctionnalités, une sorte de pierre de Rosette pour décoder le réseau neuronal de Claude. . Il convient de noter qu’Anthropic, comme d’autres entreprises à but lucratif, pourrait avoir certaines motivations commerciales pour rédiger et publier ses recherches dans de la même manière. Cela dit, l’équipe

le papier est public, ce qui signifie que vous pouvez le lire vous-même et tirer vos propres conclusions sur leurs découvertes et leurs méthodologies. , which was set in San Francisco. All told the team identified millions of features—a sort of Rosetta Stone to decode Claude’s neural net.

It should be noted that Anthropic, like other for-profit companies, could have certain, business-related motivations for writing and publishing its research in the way that it has. That said, the team’s paper is public, which means that you can go read it for yourself and make your own conclusions about their findings and methodologies.

A version of this article originally appeared on Gizmodo.

Ce contenu a été traduit automatiquement à partir du texte original. De légères différences résultant de la traduction automatique peuvent apparaître. Pour la version originale, cliquez ici.

📬 Sign up for the Daily Brief

Our free, fast, and fun briefing on the global economy, delivered every weekday morning.

Pourquoi les grands modèles linguistiques se comportent-ils comme ils le font ? De nouvelles recherches fournissent quelques indices.

📬 Sign up for the Daily Brief