Cet article date de plus d'un an.

Intelligence artificielle : cinq indices pour repérer les contenus écrits par ChatGPT, Bard ou d'autres robots conversationnels

Si cette pratique est de plus en plus difficile à déceler avec les progrès de la technologie, franceinfo vous donne quelques astuces pour détecter ces textes qui ne sont pas écrits par des humaines.

Pauline Lecouvé

France Télévisions

Publié le 02/09/2023 07:40

Temps de lecture : 10min

Ne vous êtes-vous jamais déjà demandé si un article que vous aviez lu en ligne avait pu être écrit pas une machine ? C'est pourtant fort possible. Avec les fulgurants progrès des intelligences artificielles en matière de rédaction, il est désormais possible de rédiger des articles entiers à partir d'une simple consigne. Certains sites web publient de cette manière plusieurs dizaines d'articles par jour, sans aucune supervision humaine ou presque. La start-up Newsguard, qui traque les sites de désinformation, a ainsi repéré 380 "sites d'actualité non fiables générés par l'IA" au cours des derniers mois. Parfois très bien référencés sur les moteurs de recherche, vous avez peut-être déjà lu un de ces articles sans vous en rendre compte.

>> ENQUÊTE. Comment l'intelligence artificielle s'invite à l'Assemblée nationale

Bonne nouvelle, toutefois, une étude (PDF), publiée en décembre 2022 et menée par une équipe de chercheurs de l'université de Pennsylvanie, a montré que l'œil humain était capable – moyennant un peu d'entraînement – d'identifier si un texte avait été écrit par une personne ou par une IA. Pour conduire leur étude, les chercheurs américains ont proposé aux participants de se prêter à un jeu baptisé "Real or Fake Text ?", où ils devaient essayer de repérer les textes écrits par un robot grâce à de ténus indices. Le jeu, disponible en ligne, n'existe qu'en version anglophone. Mais les mêmes principes sont applicables aux textes écrits en français. Voici quelques indices à guetter, lorsque vous lisez des articles en ligne, pour ne pas vous faire avoir.

1Elles font des répétitions (mais pas de fautes)

Premier indice : "Une IA ne fait pas de fautes d'orthographe", explique l'ingénieure Amélie Cordier, docteure en intelligence artificielle. Si vous trouvez une coquille (faute de frappe, de grammaire, etc.) dans un texte, il s'agit d'un bon moyen de voir que l'article que vous lisez a été au minimum retouché par un être humain.

En revanche, les articles rédigés par une IA sans supervision humaine sont souvent truffés de répétitions. L'écriture générative a en effet tendance à reproduire les mêmes termes et structures de phrases – même si c'est de moins en moins le cas. Les IA sont de plus en plus performantes et leurs utilisateurs savent également de mieux en mieux les utiliser pour contourner ces écueils.

"Vous pouvez dire à l'IA d'écrire 'à la manière de', lui donner un exemple d'écriture, lui dire d'éviter les répétitions et là cela devient très performant, difficilement détectable."

Virginie Mathivet, ingénieure et autrice d'une thèse sur l'intelligence artificielle
à franceinfo

Des logiciels ont même été développés afin de rendre encore plus humains les textes écrits par une intelligence artificielle. Le plus connu s'appelle Undetectable.ai et permet "d'humaniser" les textes artificiels en les confrontant aux principaux détecteurs d'IA qui existent. De fait, ces détecteurs deviennent de moins en moins fiables. "Open AI [l'entreprise créatrice de ChatGPT] a récemment abandonné son détecteur, car ça ne marche pas", fait remarquer Virginie Mathivet.

2Elles sont capables d'affirmer des absurdités

Les IA sont très performantes pour les tâches très codifiées, comme l'orthographe, mais elles peuvent affirmer des absurdités sans sourciller. "Une IA ne réfléchit pas, elle n'a pas de bon sens. Elle peut vous affirmer des choses absurdes avec une conviction absolue", note Amélie Cordier.

"Si vous demandez à une IA d'écrire une recette d'omelette aux œufs de vache, elle peut tout à fait le faire."

Amélie Cordier, ingénieure spécialiste des intelligences artificielles
à franceinfo

Les sites qui utilisent des IA pour produire des articles à la chaîne, à partir de contenus trouvés sur internet, sont souvent confrontés à ce problème. Récemment, le site The Portal, qui traite de l'actualité du jeu vidéo, s'est fait épingler sur Twitter par le journaliste Grégory Rozières. Certains articles contiennent en effet de fausses informations grossières, car l'IA qui les rédige a repris au premier degré des blagues trouvées sur Reddit.

Lorsque vous lisez un article et qu'une information semble absurde, ou qu'un chiffre vous paraît démesuré, cela peut donc être la marque d'une rédaction non-humaine. Pour s'en assurer, le mieux est alors de vérifier l'information douteuse grâce à d'autres sources de confiance. "Cela revient à faire du fact-checking, c'est à l'humain d'avoir un regard critique", commente Virginie Mathivet.

3Elles font preuve d'une productivité inhumaine

La rédaction par IA est encore loin d'être un gage de qualité, mais permet de produire un très grand nombre d'articles en un temps record. Prudence donc face aux sites qui publient quotidiennement une quantité faramineuse d'articles, sans pour autant employer de nombreuses personnes. "Si on voit qu'un blog publie 200 articles par jour sous le même nom, c'est un indice", explique Virginie Mathivet. Certains articles écrits par des robots sont signés par un nom, comme s'ils avaient été rédigés par une personne. Si cette signature semble trop prolifique, l'utilisation d'une IA est à suspecter fortement. Sur le site The Portal, déjà cité plus haut, un même "journaliste" a ainsi signé près de 7 000 articles en seulement neuf jours.

De plus, si les articles entre eux comportent de nombreuses similitudes dans leur forme et leur structure, il y a fort à parier que ceux-ci soient rédigés automatiquement. Les IA ont en effet tendance à produire des contenus très homogènes, surtout s'ils sont créés à partir de la même consigne utilisée en boucle. "L'IA imite, c'est la façon par laquelle elle fonctionne. Elle homogénéise un peu tout", fait remarquer Amélie Cordier.

4Elles écrivent mal et citent rarement leurs sources

Même si elles signent parfois d'un nom humain, les IA ne peuvent pas incarner leurs articles de la même manière qu'un journaliste en chair et en os. Si un journaliste n'a strictement aucune existence en ligne en dehors de sa page auteur, cela peut faire partie des indices qui laissent à penser à une rédaction par IA. Enfin, les articles publiés grâce à une intelligence artificielle ont souvent un ton très factuel, assez désincarné. Les IA citent très rarement leurs sources et ne font jamais intervenir de personne humaine sous forme de citation comme dans un article de presse.

Elles sont en revanche tout à fait capables d'en inventer si on leur demande de le faire. Dans un numéro paru en avril 2023, le magazine people allemand Die Aktuelle a poussé le vice jusqu'à publier une fausse interview exclusive de Michael Schumacher, générée par une intelligence artificielle, comme le raconte le site spécialisé Numerama. La famille de l'ancien champion de Formule 1 a porté plainte et la rédactrice en chef du magazine a finalement été limogée.

L'IA peut cependant être un outil intéressant, tant qu'elle reste sous supervision humaine. Le journaliste Jean Rognetta, créateur de la newsletter Qant, a quotidiennement recours à l'IA. Selon lui, il n'est "plus possible de reconnaître avec certitude un article écrit par une IA, si ce n'est que c'est souvent du mauvais journalisme". S'il utilise l'IA pour écrire sa newsletter, Jean Rognetta reste en effet convaincu de la nécessité d'effectuer une relecture et une correction humaine. "Notre newsletter est écrite avec, et non par une IA", martèle-t-il. Une approche qui pourrait bientôt se généraliser à d'autres journaux. Le 19 juillet dernier, le New York Times annonçait dans ses pages qu'un outil d'intelligence artificielle, destiné à automatiser certaines tâches effectuées par ses journalistes, était en cours de développement par Google.

5Elles seront bientôt signalées par un filigrane

Face à la difficulté de plus en plus grande de détecter les contenus générés via une intelligence artificielle, l'Union européenne a adopté en juin dernier le "AI Act", avec l'objectif de réguler le secteur. A partir de l'application de la nouvelle réglementation, pas prévue avant 2026, les contenus générés par IA devront être signalés par un "watermark" (une signature en filigrane) indiquant clairement qu'ils n'ont pas été créés par un humain.

La forme de ce watermark n'est cependant pas encore entièrement définie. Il pourrait prendre la forme d'une phrase d'avertissement ou être dissimulé dans le texte, afin d'être moins facilement effaçable par les utilisateurs. Open AI a récemment annoncé travailler sur un watermark invisible. Comment ? Une récente étude (PDF) de l'université du Maryland propose par exemple que les IA soient programmées pour utiliser plus fréquemment une "liste spéciale" de mots définie à l'avance, permettant aux logiciels de détection d'être plus efficaces.

"Il y a de bonnes intentions au niveau de l'UE et des éditeurs, mais le problème reste la question de la mise en œuvre", estime Amélie Cordier. Si la régulation peut se mettre en place facilement pour les plus gros acteurs comme Open AI, Google, etc., elle sera impossible à imposer aux petites entités qui pullulent.

"Si l'utilisateur a le choix entre un logiciel avec 'watermark', ou un logiciel gratuit indétectable, la régulation risque d'être inefficace."

Amélie Cordier, ingénieure spécialiste des intelligences artificielles
à franceinfo

Une opinion que partage Virginie Mathivet, particulièrement en ce qui concerne les "fake news". "Une personne qui veut faire de la désinformation fera en sorte de ne pas avoir de watermark", conclut-elle.