Cet article date de plus de deux ans.

"Make-A-Video" : ce qu'il faut savoir de la nouvelle intelligence artificielle de Meta qui génère une vidéo à partir d'un simple texte

Bientôt chez vous Loïc Pialat et Yann Rousseau Du lundi au vendredi à 5h26

La nouvelle intelligence artificielle de la maison-mère de Facebook en est à ses débuts et, comme souvent avec la technologie, elle offre à la fois beaucoup de promesses et quelques menaces.

Loïc Pialat

Radio France

Publié le 17/10/2022 06:31 Mis à jour le 17/10/2022 06:32

Temps de lecture : 2min

Le système s’appelle Make-A-Video – "faire une vidéo" en français. Un formulaire à remplir permet de décrire une scène à l’écrit et l’intelligence artificielle s’appuie sur ces informations pour générer une vidéo qui s’en inspire. Les vidéos durent à peu près 5 secondes, sans son, avec une qualité d’image encore largement perfectible. Il suffit de taper "un robot fait du surf sur l’océan", "une soucoupe volante atterrit sur Mars" ou "un ours en peluche peint son propre portrait" et c’est ce qui apparaît à l’image.

We’re pleased to introduce Make-A-Video, our latest in #GenerativeAI research! With just a few words, this state-of-the-art AI system generates high-quality videos from text prompts.

Have an idea you want to see? Reply w/ your prompt using #MetaAI and we’ll share more results. pic.twitter.com/q8zjiwLBjb
— Meta AI (@MetaAI) September 29, 2022

Mark Zuckerberg, le PDG du groupe Meta, est très enthousiaste. Il parle d’un immense progrès, rappelant que créer une vidéo pose beaucoup plus de difficultés techniques que créer une photo, une image fixe. Pour l'instant, les seules vidéos qui circulent sont celles que Meta a bien voulu montrer mais elles sans doute assez convaincantes pour que des universités ou des entreprises se décident à injecter de l’argent dans la recherche.

Faut-il s'en inquiéter ?

Personne n’a eu accès au système, insiste le site The Verge, mais c’est la même logique qu’avec toute intelligence artificielle : on abreuve le système de millions de données pour qu’il les analyse et apprenne à réagir en fonction des circonstances proposées. Les sources utilisées dans ce cas précis contiendraient des centaines de milliers d’heures de vidéos.

Meta parle d’un outil qui pourrait devenir précieux pour les créateurs et les artistes. Mais, un peu comme avec le deep fake – qui permet de modifier des visages ou le mouvement des lèvres –, il est possible de se demander si la technologie ne risque pas d’être pervertie pour produire de la désinformation, pour asséner de la propagande ou même fabriquer des images pornographiques pour harceler des femmes. Meta admet que son modèle, parce qu’il s’appuie sur des données existantes, peut reproduire les stéréotypes qui s’y trouvent.

Le site The Verge note, par exemple, qu’il y a des chances que, si vous tapez "terroriste", la vidéo créée montre quelqu’un avec un turban. Ce problème, Meta en est conscient. La firme s’engage à échanger sur ses résultats et à affiner son intelligence artificielle émergente pour éviter, le plus possible, ce genre de dérives.