Cet article date de plus d'un an.

États-Unis : HeyGen, l’IA capable de faire parler plusieurs langues à n’importe qui

Une start-up de Los Angeles a lancé un outil vidéo impressionnant capable de montrer la personne filmée en train de parler une autre langue que celle qu’elle parle initialement. Après ChatGPT et Midjourney, cette nouvelle intelligence artificielle est elle aussi controversée.
Article rédigé par Loïc Pialat
Radio France
Publié Mis à jour
Temps de lecture : 4min
Heygen l’IA qui peut faire parler plusieurs langues à n’importe qui. Photo d'illustration (COLIN ANDERSON PRODUCTIONS PTY L / DIGITAL VISION)

Vous avez peut-être croisé sur les réseaux sociaux une vidéo de Lionnel Messi en conférence de presse parlant un anglais parfait, ou une vidéo d'Elon Musk ou Donald Trump parlant français, ou peut-être une du général de Gaulle parlant italien ou portugais. Il s'agit bien d'un nouvel outil d'intelligence artificielle.

Dans la vidéo ci-dessus, Jon Finger, un scénariste, teste l’outil, appelé simplement Video Translate, assis devant sa maison. Il explique ce qu’il doit faire : se filmer brièvement et envoyer le fichier pour que le système traite son visage et sa voix. Il donne ensuite la même explication, mais cette fois en français, avec un petit accent québécois, puis en allemand. Ses lèvres bougent comme s’il parlait vraiment français ou allemand. Le résultat est spectaculaire même si, à l’écoute, il y a un écho un peu robotique sur sa voix traduite.

Vidéo Translate est toujours en version bêta mais peut déjà traduire en anglais, français, allemand, espagnol, italien, polonais, portugais et en hindi. Les vidéos courtes sont gratuites mais les versions plus longues sont payantes.

>> Face à la menace mondiale des fausses images satellites, les deepfakes géographiques, une start-up de Toulouse trouve la parade

Une start-up spécialisée dans la création d'avatars vidéo

Cette invention est la création d’une start-up du nom de HeyGen, installée à Los Angeles. Son fondateur, Joshua Xu a été formé par l’université Carnegie Mellon à Pittsburgh, l’une des meilleures écoles d’ingénieurs au monde. Il a ensuite travaillé pour Snapchat de 2014 à 2020.

Au départ, HeyGen s’appelait Movio. Avant le Video Translate, sa nouveauté, la start-up proposait de créer son propre avatar. L’avantage, c’est qu'il est possible de le contrôler, de lui faire dire n'importe quel texte en le tapant dans l’ordinateur. L'avatar est une copie hyperréaliste, de son propre visage et de sa propre voix, reproduite grâce à une vidéo de deux minutes qui peut se tourner simplement avec un smartphone, pas besoin d’un studio ou d’une caméra en haute définition. Au-delà de la prouesse technique, c’est aussi la facilité du processus qui impressionne.

HeyGen propose aussi des avatars impersonnels, au visage et à la voix générique, qui peuvent servir à transmettre un message, sur le site Internet d’une entreprise par exemple, sans payer un acteur et sans caméra.

Des inquiétudes face au potentiel de cette technologie

Des individus malhonnêtes penseront forcément à l’utiliser pour des activités criminelles ou de la désinformation. Changpeng Zhao, le fondateur de la plateforme de cryptomonnaies Binance, s’en est inquiété publiquement parce que l’identification vidéo est utilisée par sa société pour les échanges financiers.

Joshua Xu, le fondateur de HeyGen argue surtout que son outil peut faire tomber la barrière de la langue pour des millions de personnes. Les contenus vidéo en ligne deviendraient facilement accessibles aux 90% des personnes qui ne parlent pas anglais, par exemple.

>> Grève à Hollywood : avec la montée en puissance de l'intelligence artificielle, les cascadeurs voient leur métier menacé

Mais on peut aussi imaginer que, dans un avenir pas si lointain, des personnes pourraient demander à ChatGPT d’écrire un texte sur un thème, n’importe lequel. Elles glisseraient ensuite le texte écrit par l’intelligence artificielle dans l’outil de HeyGen et lui demanderaient de le traduire en plusieurs langues en utilisant l’un des avatars génériques proposés par le site. Elles auraient produit du contenu à moindre coût - pas de scénariste, pas de présentateur, pas de cameraman, pas d’équipement, pas de traducteur - avec en plus, un minimum d’effort.

Commentaires

Connectez-vous à votre compte franceinfo pour participer à la conversation.