Logo

La vidéo IA devient réelle

Mais ce qui vient ensuite ne sera pas le cas.

Will Smith mangeant des spaghettis est devenu l’histoire de réussite la plus étrange de la technologie.

De retour en 2023, un Vidéo de l’acteur générée par l’IA Le fait de slurper des pâtes est devenu viral pour de mauvaises raisons. Le clip, créé par un modèle d’IA précoce appelé ModelScope, montrait une silhouette cauchemardesque qui ressemblait vaguement à Smith, déchiquetant grotesquement des nouilles avec des mouvements de mains et des contorsions faciales impossibles. C’était si manifestement faux et troublant que Smith lui-même l’a parodié presque un an plus tard, transformant l’échec de l’IA en mème.

Cet horrible clip de pâtes est depuis devenu une référence informelle pour les progrès de la vidéo IA — un test standard que les développeurs et les chercheurs utilisent pour mesurer l’avancée de la technologie. C’est l’équivalent vidéo IA de demander à un chatbot de passer le LSAT ou de résoudre un problème mathématique.

Avance rapide jusqu’au mois dernier, quand Google a dévoilé Veo 3, son dernier modèle de texte en vidéo, qui peut générer un sosie convaincant de Will Smith faisant tournoyer des linguines en douceur, accompagné de sons de mastication. Le seul problème ? L’IA pense que les spaghettis font des bruits de croquillage, comme quand on mange des chips. C’est un petit problème qui révèle à quel chemin nous avons voyagé en moins de deux ans, du spectacle d’horreur numérique à une imitation presque parfaite avec seulement des bizarreries audio mineures.

Le passage du cauchemar spaghetti au deepfake convaincant s’est effectué par une série d’avancées rapides en 2024. SORA d’OpenAI, publié au début de l’année, pourrait générer des images fluides et cinématographiques, mais restées silencieuses — essentiellement des GIF de haute qualité. Meta’s Movie Gen suivi d’une meilleure cohérence de caractère sur des clips plus longs. Veo 2 de Google amélioré sur les deux mais ne pouvait toujours pas produire de son. Chaque modèle représentait un progrès progressif, mais aucun n’a préparé les observateurs à l’intégration soudaine de l’audio synchronisé, des dialogues réalistes et des effets sonores ambiants de Veo 3.

Il ne s’agit pas de la marche régulière du progrès technologique à laquelle nous sommes habitués. C’est un saut vertigineux qui a laissé les experts, les cinéastes et la société dans l’impossibilité de comprendre ce qui vient de se passer. Le saut soudain des vidéos d’IA manifestement fausses à un contenu synthétique presque impossible à distinguer représente l’un des sauts de capacité les plus spectaculaires de l’histoire récente de la technologie.

Hollywood est un endroit où elle est adoptée. Les dirigeants des médias qui, il y a quelques années encore, prenaient des notes sur l’expérimentation de l’IA, étaient assis nerveusement dans le public d’une conférence. discutent désormais publiquement de leur utilisation active de ces outils. Amazon Studios a récemment parlé ouvertement de l’intégration de l’IA générative dans ses pipelines créatifs, marquant ce qu’un initié du secteur a appelé « un moment de révélation » où la technologie est devenue trop utile pour être ignorée. Ce changement est logique : quand les coûts de tournage quotidiens atteignent 200 000 dollars à Los Angeles et que les sociétés d’effets visuels traditionnels ferment leur valeur, l’IA n’est pas seulement une innovation — c’est une survie.

Mais la véritable rupture ne se produit pas dans les salles de conseil des studios. Elle réside dans la démocratisation complète de la manipulation vidéo sophistiquée. Ce qui nécessitait autrefois des équipes d’artistes VFX, des logiciels coûteux et des budgets hollywoodiens peut désormais être réalisé par n’importe qui avec 1,50 $ et une connexion Internet. La structure tarifaire de Veo 3 met la création de fausses vidéos convaincantes à la portée de pratiquement tout le monde, faisant tomber les barrières qui servaient auparavant de protections naturelles contre la manipulation médiatique généralisée.

La menace se matérialisait déjà en images. À partir de 2023, Tom Hanks a averti à plusieurs reprises ses abonnés Instagram à propos de vidéos générées par l’IA utilisant faussement son image pour promouvoir des remèdes miracles et des médicaments miracles. Le Département de la Sécurité intérieure a identifié les deepfakes comme une « menace croissante » notant que les médias synthétiques n’ont pas besoin d’être particulièrement avancés pour être efficaces — ils doivent simplement exploiter « la tendance naturelle des gens à croire ce qu’ils voient ». Ce dernier saut en matière de qualité vidéo ne fera qu’accélérer le problème, rendant la tromperie moins chere, plus rapide et plus accessible.

La technologie présente encore des limites. Bien que les démonstrations virales circulant en ligne semblent impeccables, une expérimentation plus approfondie révèle Veo 3 a du mal à être cohérent et ignore souvent complètement les invites. Les meilleurs modèles disposent de garde-fous qui ne vous permettront pas de créer des vidéos montrant des personnes reconnaissables. Mais le rythme des progrès suggère que même les bizarreries actuelles deviendront bientôt obsolètes. Et les garde-fous ont tendance à être démantelés, nous laissant avec du contenu généré par l’IA qui est fonctionnellement indiscernable de la réalité.

La question n’est pas de savoir si nous pouvons encore faire confiance à ce que nous voyons et entendons, mais plutôt de savoir si nous pouvons faire confiance à celui qui nous le montre. À une époque où la manipulation vidéo sophistiquée coûte moins cher qu’un café, la crédibilité ne s’ancre plus dans le support, mais dans le messager. La maturation soudaine de la technologie vidéo de l’IA a transformé ce que beaucoup s’attendaient à être une adaptation sociétale d’une décennie en une crise immédiate de vérification, nous forçant à reconstruire des systèmes de confiance qui supposaient que voir était croire.

—Jackie Snow, rédactrice collaboratrice

📬 Inscrivez-vous au briefing quotidien

Notre briefing gratuit, rapide et amusant sur l'économie mondiale, diffusé chaque matin en semaine.