IA là !

L’enquête nous ayant permis de découvrir plus de 1 000 sites d’actualité alimentés au moyen d’intelligences artificielles génératives (GenAI) montre que leurs articles n’ont vraisemblablement pas été écrits par des journalistes ou rédacteurs, ni même relus ou corrigés avant publication. Notre méthodologie a par ailleurs été challengée et vérifiée par deux contributeurs expérimentés de l’encyclopédie Wikipédia, et deux journalistes du service de fact-checking CheckNews de Libération.
Le fait d’avoir passé des mois à identifier plus de 1 000 sites d’information générés par IA nous a permis de visualiser des milliers d’images souvent, elles aussi, GenAI, mais aussi et surtout de nous familiariser avec les caractéristiques partagées par ces contenus synthétiques.
Si leurs articles ont pu tromper des « contributeurs expérimentés, voire très expérimentés » de Wikipédia, comme nous le relevions dans le premier article consacré à cette enquête au long cours, c’est qu’ils n’avaient pas été entraînés ni sensibilisés au fait de les reconnaître d’une part, d’autre part parce qu’ils ne s’attendaient pas à voir ces sites d’information, auparavant considérés comme fiables, être désormais alimentés par IA.
Ce pourquoi il nous a semblé important de consacrer un article expliquant comment nous avons procédé, et donc comment identifier les sites et articles générés par IA. À toutes fins utiles, Next a aussi développé une extension web (pour Firefox et les navigateurs basés sur Chrome) afin d’afficher un message d’alerte sur les sites que nous avons d’ores et déjà identifiés comme GenAI parce que leurs articles nous semblent avoir, en tout ou partie, été générés par IA.
– [Outils Next] Une extension Chrome et Firefox pour être alerté des sites GenAI
Au printemps 2023, nous avions de notre part consacré deux articles aux moyens d’identifier les textes et images générés au moyen d’intelligences artificielles. Nous avions alors constaté que les outils de détection des contenus GenAI généraient eux-mêmes de nombreux « faux positifs » (contenus créés par des humains, mais identifiés à tort comme GenAI), et « faux négatifs » (contenus GenAI, mais non reconnus comme tels).
Ceux que nous avions alors testés avaient pour la plupart failli à identifier le texte généré par ChatGPT, en français, que nous leur avions soumis. Certains détecteurs affirmaient que la probabilité qu’il ait été écrit par une IA était de 1 à 25,6 %. D’autres considéraient probable à 97 % et même 100 % qu’il ait été écrit par un humain.
De plus, cette façon de présenter les résultats, avec des « X % » surlignés de vert ou de rouge, relève de « dark patterns » (ou « interfaces truquées ») cherchant à faire croire que leurs calculs de probabilité seraient (quasi-)infaillibles.
Cette forme de « solutionnisme technologique » est une façon biaisée de traiter le problème. Comme l’a résumé le psychologue Abraham Maslow, aussi connu pour sa « Pyramide des besoins » : « J’imagine qu’il est tentant, si le seul outil dont vous disposiez est un marteau, de tout considérer comme un clou » (cette proposition est quelquefois nommée loi de l’instrument, ou « marteau de Maslow »).
De plus, les professionnels du « black hat SEO » (pour « Search Engine Optimization »), connus pour développer des techniques susceptibles de « pirater » les algorithmes des moteurs de recherches, se sont eux aussi rués sur ces IA génératives pour développer des générateurs d’articles « en vrac », optimisés pour déjouer ces détecteurs de contenus GenAI (nous y reviendrons dans un prochain article).
Une méthodologie challengée et validée par des pairs
Ces différentes limites expliquent pourquoi nous n’avons pas utilisé de tels outils, reposant eux-même sur des IA, dans le cadre de notre enquête. Nous avons, a contrario, opté pour une méthodologie, basée sur l’identification et la reconnaissance (humaine, à l’œil nu) de leurs techniques, tactiques et procédures (TTP).