Voici pourquoi l’IA « multimodale » prend le contrôle de l’industrie technologique

Il existe une nouvelle course technologique pour permettre à l’IA de voir et d’entendre le monde qui vous entoure et, en fin de compte, de lui donner un sens pour vous.

Nous pouvons gagner une commission sur les liens sur cette page.
Image de l'article intitulé Voici pourquoi l’IA « multimodale » prend le contrôle de l’industrie technologique
Capture d'écran: OpenAI

OpenAI et Google ont présenté leur la dernière et la meilleure technologie d’IA cette semaine. Au cours des deux dernières années, les entreprises technologiques se sont précipitées pour rendre les modèles d’IA plus intelligents, mais maintenant un nouvel objectif est apparu : rendez-les multimodaux. OpenAI et Google se concentrent sur l’IA qui peut basculer de manière transparente entre sa bouche, ses yeux et ses oreilles robotiques.

Publicité

« Multimodal » est le mot le plus à la mode alors que les entreprises technologiques parient sur la forme la plus attrayante de leurs modèles d’IA dans votre vie quotidienne. Les chatbots ont perdu de leur éclat depuis le lancement de ChatGPT en 2022. Les entreprises espèrent donc pouvoir parler et partager visuellement des choses avec une IA. L’assistant se sent plus naturel que la saisie au clavier. Quand vous voyez l’IA multimodale bien faite, vous avez l’impression que la science-fiction prend vie.

Lundi, OpenAI s’est présenté GPT-4 Omni, qui rappelait étrangement le film dystopique sur la perte de la connexion humaine. Elle. Omni signifie « omnicanal », et OpenAI a vanté la capacité du modèle à traiter la vidéo en même temps que l’audio. La démo montrait ChatGPT examinant un calcul problème via la caméra d’un téléphone, alors qu’un membre du personnel d’OpenAI a demandé verbalement au chatbot de les guider à travers ce problème. OpenAI dit qu’il est en cours de déploiement maintenant aux utilisateurs Premium.

Publicité

Le lendemain, Google a dévoilé le projet Astra, qui promettait de faire à peu près la même chose. Florence Ion de Gizmodo a utilisé l’IA multimodale pour identifier les fausses fleurs qu’elle regardait, qu’il a correctement identifié comme destulipes. Cependant, le Projet Astra semblait un peu plus lent que GPT-4o, et la voix était beaucoup plus robotique. Plus Siri que Son, mais je vous laisse décider si c’est une bonne chose. Google dit que ce n’en est à un premier stade , et même note certains défis actuels que OpenAI a surmontés.

Publicité

« Bien que nous ayons fait des progrès incroyables en développant des systèmes d’IA capables de comprendre les informations multimodales, il est difficile de réduire le temps de réponse à quelque chose de conversationnel. défi d’ingénierie », a déclaré Google dans un article de blog.

Publicité

Maintenant, tu te souviens peut-être Vidéo de démo Gemini de Google de décembre 2023 qui s’est avéré fortement manipulé. Six mois plus tard, Google n’est toujours pas prêt à publier ce qu’il a montré dans cette vidéo, mais OpenAI prend de l’avance avec GPT-4o. L’IA multimodale représente la prochaine grande course dans le développement de l’IA, et OpenAI semble être gagnant.

Une différence clé pour GPT-4o est que le modèle d’IA unique peut traiter de manière native l’audio, la vidéo et le texte. Auparavant, OpenAI nécessitait des modèles d’IA séparés pour traduire la parole et la vidéo en texte afin que le GPT-4 sous-jacent, qui est basé sur le langage, puisse comprendre ces différents Il semble que Google utilise encore plusieurs modèles d’IA pour effectuer ces tâches, étant donné les temps de réponse plus lents.

Publicité

Nous avons également assisté à une adoption plus large de Appareils portables IA alors que les entreprises technologiques adoptent l’IA multimodale. Le Humane AI Pin, le Rabbit R1 et les Meta Ray-Ban sont tous des exemples d’appareils compatibles avec l’IA. qui utilisent ces différents supports. Ces appareils promettent de nous rendre moins dépendants des smartphones, même s’il est possible que Siri et Google Assistant le fassent. seront également dotés d’une IA multimodale assez tôt.

L’IA multimodale est probablement quelque chose dont vous entendrez parler beaucoup plus dans les mois et les années à venir. Son développement et son intégration dans des produits pourrait rendre l’IA beaucoup plus utile. En fin de compte, la technologie vous enlève le poids de transcrire le monde dans un LLM et permet l’IA pour « voir » et « entendre » le monde par elle-même.

Publicité

Cette histoire est apparue à l’origine sur Gizmodo.

Ce contenu a été traduit automatiquement à partir du texte original. De légères différences résultant de la traduction automatique peuvent apparaître. Pour la version originale, cliquez ici.

Publicité