États-Unis : HeyGen, l’IA capable de faire parler plusieurs langues à n’importe qui
Vous avez peut-être croisé sur les réseaux sociaux une vidéo de Lionnel Messi en conférence de presse parlant un anglais parfait, ou une vidéo d'Elon Musk ou Donald Trump parlant français, ou peut-être une du général de Gaulle parlant italien ou portugais. Il s'agit bien d'un nouvel outil d'intelligence artificielle.
Dans la vidéo ci-dessus, Jon Finger, un scénariste, teste l’outil, appelé simplement Video Translate, assis devant sa maison. Il explique ce qu’il doit faire : se filmer brièvement et envoyer le fichier pour que le système traite son visage et sa voix. Il donne ensuite la même explication, mais cette fois en français, avec un petit accent québécois, puis en allemand. Ses lèvres bougent comme s’il parlait vraiment français ou allemand. Le résultat est spectaculaire même si, à l’écoute, il y a un écho un peu robotique sur sa voix traduite.
Vidéo Translate est toujours en version bêta mais peut déjà traduire en anglais, français, allemand, espagnol, italien, polonais, portugais et en hindi. Les vidéos courtes sont gratuites mais les versions plus longues sont payantes.
Une start-up spécialisée dans la création d'avatars vidéo
Cette invention est la création d’une start-up du nom de HeyGen, installée à Los Angeles. Son fondateur, Joshua Xu a été formé par l’université Carnegie Mellon à Pittsburgh, l’une des meilleures écoles d’ingénieurs au monde. Il a ensuite travaillé pour Snapchat de 2014 à 2020.
Au départ, HeyGen s’appelait Movio. Avant le Video Translate, sa nouveauté, la start-up proposait de créer son propre avatar. L’avantage, c’est qu'il est possible de le contrôler, de lui faire dire n'importe quel texte en le tapant dans l’ordinateur. L'avatar est une copie hyperréaliste, de son propre visage et de sa propre voix, reproduite grâce à une vidéo de deux minutes qui peut se tourner simplement avec un smartphone, pas besoin d’un studio ou d’une caméra en haute définition. Au-delà de la prouesse technique, c’est aussi la facilité du processus qui impressionne.
HeyGen propose aussi des avatars impersonnels, au visage et à la voix générique, qui peuvent servir à transmettre un message, sur le site Internet d’une entreprise par exemple, sans payer un acteur et sans caméra.
Des inquiétudes face au potentiel de cette technologie
Des individus malhonnêtes penseront forcément à l’utiliser pour des activités criminelles ou de la désinformation. Changpeng Zhao, le fondateur de la plateforme de cryptomonnaies Binance, s’en est inquiété publiquement parce que l’identification vidéo est utilisée par sa société pour les échanges financiers.
Joshua Xu, le fondateur de HeyGen argue surtout que son outil peut faire tomber la barrière de la langue pour des millions de personnes. Les contenus vidéo en ligne deviendraient facilement accessibles aux 90% des personnes qui ne parlent pas anglais, par exemple.
Mais on peut aussi imaginer que, dans un avenir pas si lointain, des personnes pourraient demander à ChatGPT d’écrire un texte sur un thème, n’importe lequel. Elles glisseraient ensuite le texte écrit par l’intelligence artificielle dans l’outil de HeyGen et lui demanderaient de le traduire en plusieurs langues en utilisant l’un des avatars génériques proposés par le site. Elles auraient produit du contenu à moindre coût - pas de scénariste, pas de présentateur, pas de cameraman, pas d’équipement, pas de traducteur - avec en plus, un minimum d’effort.
Commentaires
Connectez-vous à votre compte franceinfo pour participer à la conversation.