Le nouveau générateur vidéo IA de Microsoft lutte pour rendre les dents réelles

Publié19 avril 2024

Nous pouvons gagner une commission sur les liens sur cette page.

Vidéo produite par des chercheurs de Microsoft qui utilise l’IA pour générer des personnes parlantes à partir d’images fixes

Gif: Microsoft / Gizmodo

Des chercheurs de Microsoft ont publié cette semaine un article sur VASA-1, un nouvel outil d’IA qui peut générer une vidéo convaincante de quelqu’un parlant, en utilisant juste une image fixe. Microsoft n’a prévoit de rendre le nouvel outil public, mais c’est assez impressionnant. Eh bien, c’est impressionnant si vous n’y regardez pas de trop près. les dents. Jetez juste un oeil à ces mordeurs.

Le modèle VASA-1 fonctionne en prenant n’importe quelle photo fixe d’un visage humain ou, dans les exemples publié par Microsoft, un visage généré par l’IA de quelqu’un qui n’existe pas réellement et, après avoir reçu un fichier audio, peut produire une vidéo synchronisée qui comprend des nuances du visage et un mouvement d’aspect naturel.

Encore une fois, tout cela est assez impressionnant, comme vous pouvez le voir dans l’une des vidéos fournies par Microsoft ci-dessous. Mais le seul domaine dans lequel VASA-1 semble avoir du mal à rendre les dents. Si vous vous concentrez sur les dents, elles peuvent avoir une qualité de dessin animé, apparaissant légèrement animées dans un d’une manière qui ne correspond pas tout à fait à la qualité hyper-réaliste de tout le reste.

VASA-1 Video From Microsoft

Les dents bizarres de la vidéo deviennent encore plus apparentes lorsque vous ralentissez le tout, comme Gizmodo l’a fait dans le GIF ci-dessous. cela vous fait presque vous sentir mal de trier l’apparence de quelqu’un jusqu’à ce que vous vous souveniez que la personne ci-dessous n’existe littéralement pas.)

Gif: Microsoft / Gizmodo

Un autre exemple de vidéo fourni par Microsoft, qui apparaît ci-dessous, montre des qualités similaires à celles d’un dessin animé dans les dents, même si d’autres caractéristiques semblent très réalistes, surtout quand vous vous souvenez que le seul matériel source est une image statique et un fichier audio.

VASA-1 Demonstration

Quelle que soit la raison, les dents dans les vidéos montrant des hommes étaient légèrement moins visibles, peut-être parce que le modèle ne montrait pas d’hommes ouvrant la bouche. tout aussi large tout en parlant. Mais quiconque regarde de près peut toujours avoir le sentiment que quelque chose ne va pas ici.

VASA-1 Demonstration (Male)

L’une des choses les plus intéressantes notées par les chercheurs est que son modèle peut produire très rapidement des vidéos de relativement haute qualité, ce que d’autres IA des générateurs comme Sora d’OpenAI aurait difficulté avec. En fait, le journal note une latence de seulement 0,17 seconde sur un PC GPU RTX 4090.

Et cette vitesse est quelque chose qui peut fournir des vidéos instantanées pour une variété d’applications, comme les services de traduction en temps réel.

« Notre méthode offre non seulement une qualité vidéo élevée avec une dynamique réaliste du visage et de la tête, mais prend également en charge la génération en ligne de vidéos 512 x 512 à jusqu’à 40 FPS avec une latence de démarrage négligeable. Il ouvre la voie à des engagements en temps réel avec des avatars réalistes qui imitent la conversation humaine. comportements », lit-on dans le nouveau journal.

Real-time efficiency video of VASA-1

Les chercheurs sont clairement conscients des dangers de ce genre de technologie, ce qui explique peut-être pourquoi Microsoft n’a pas annoncé son intention de se précipiter. Les chercheurs ont également identifié des cas d’utilisation qui, selon eux, seront utiles à l’humanité.

« Les avantages, tels que l’amélioration de l’équité en matière d’éducation, l’amélioration de l’accessibilité pour les personnes ayant des difficultés de communication, l’offre d’un accompagnement ou d’un soutien thérapeutique à ceux qui en ont besoin. , parmi beaucoup d’autres, soulignent l’importance de notre recherche et d’autres explorations connexes. Nous nous engageons à développer l’IA de manière responsable, avec le objectif de faire progresser le bien-être humain », lit-on dans le journal.

« Compte tenu d’un tel contexte, nous n’avons pas l’intention de publier une démo en ligne, une API, un produit, des détails de mise en œuvre supplémentaires ou toute offre connexe. jusqu’à ce que nous soyons certains que la technologie sera utilisée de manière responsable et conformément aux réglementations appropriées.

C’est probablement une bonne idée, étant donné nombre d’arnaques qui sont possibles avec ce genre de technologie. Après tout, l’élection présidentielle de 2024 aux États-Unis n’est que dans sept mois. Et le menace de fascisme à l’échelle mondiale ne disparaîtra pas de sitôt. L’humanité a vraiment l’impression d’être impuissante face aux contrefaçons générées par l’IA en ce moment. Et les grandes entreprises comme Microsoft devraient le faire. ils feront probablement tout ce qui est en leur pouvoir pour limiter les dommages potentiels avant que pratiquement tout ce qui se trouve sur Internet ne devienne un faux.

Une version de cet article paru à l’origine sur Gizmodo.

Ce contenu a été traduit automatiquement à partir du texte original. De légères différences résultant de la traduction automatique peuvent apparaître. Pour la version originale, cliquez ici.

📬 Sign up for the Daily Brief

Our free, fast, and fun briefing on the global economy, delivered every weekday morning.

Microsoft a un nouveau générateur de vidéos IA et il existe un moyen de dire que tout est faux

Les générateurs d’images IA ont du mal avec les mains, mais les générateurs de vidéo ont des difficultés avec les dents

📬 Sign up for the Daily Brief