« Mais tu écris n'importe quoi, en fait »
Image may be NSFW.Clik here to view.
![[Récap] Nous avons découvert des milliers de sites d’info générés par IA : tous nos articles](http://next.ink/wp-content/uploads/2025/01/Detect-ia.webp)
Entamée début 2024, notre enquête sur les soi-disant « sites d’information » générés par IA (GenAI) a donné lieu de multiples révélations depuis la publication de ses premiers articles, début février. Signe de l’ampleur de cette pollution médiatique : notre enquête nous avait permis d’en identifier une centaine en octobre 2024, 500 à Noël, 1 000 fin janvier, plus de 2 000 mi-février, près de 3 000 début mars…
Vu l’ampleur du problème, nous avions donc proposé au service de fact-checking CheckNews de Libération, ainsi qu’à des fact-checkers de Wikipédia, de nous aider à enquêter sur ce qui s’apparente à une véritable « pollution » numérique et médiatique.
- Comment tenter d’identifier les textes émanant d’intelligences artificielles génératives ?
- Comment tenter d’identifier les images générées par des intelligences artificielles ?
Près de 150 des 500 sites GenAI que nous avions initialement identifiés étaient en effet mentionnés comme « sources » sur Wikipédia. Et ce, alors que leurs articles ne semblent avoir été ni relus, ni corrigés, ni validés avant leur publication automatisée (et, donc, sans supervision humaine).
La plupart des articles mentionnés dans l’encyclopédie avaient été publiés avant que leurs noms de domaine (expirés) ne soient rachetés par des professionnels du référencement – SEO – et du marketing numérique. Ces sites n’en restent pas moins référencés sur Google Actualités, quand bien même ils n’émanent donc pas de « journalistes » ni de « médias » reconnus par la profession, que leurs articles sont générés par IA, et qu’ils polluent le moteur de recherche et son algorithme de recommandation Discover.
Nous avons depuis également découvert que, parmi la centaine de professionnels du référencement (SEO) et du marketing numérique qui les administrent, certains en gèrent plusieurs centaines, et même plusieurs milliers, sans être en capacité d’identifier combien polluent de la sorte Google, et particulièrement Google Actualités.
Nous avons bien évidemment détaillé notre méthodologie, challengée et vérifiée par les deux contributeurs expérimentés de l’encyclopédie Wikipédia, et les deux journalistes du service de fact-checking CheckNews de Libération.
Next a en outre développé une extension pour les navigateurs compatibles Chrome et Firefox (y compris sur Android), afin d’alerter ses utilisateurs lorsqu’ils consultent un site GenAI (cf sa présentation, et notre méthodologie). Elle les alerte aussi désormais lorsqu’ils visitent aussi des noms de domaines « potentiellement malveillants » identifiés par Red Flag Domains, et des « entités non autorisées à proposer des produits ou services financiers en France » par l’Autorité des marchés financiers.
40 médias français ont depuis demandé à la Justice d’ordonner aux FAI le blocage du site news.dayfr.com. Ce dernier, le plus bourrin du millier de sites d’informations générés par IA que nous avons identifiés, plagiait de 5 à 15 articles… par minute, et jusqu’à plus de 6 000 par jour. Ironie de l’histoire : il a aussi été jusqu’à…. plagier deux des articles mentionnant la plainte le concernant.
Une enquête de l’équipe « pour une IA responsable » de la BBC a par ailleurs découvert que plus de la moitié des réponses fournies par les assistants d’intelligence artificielle (IA) à qui il avait été demandé de chercher leurs réponses dans les articles de la BBC étaient « factuellement incorrectes, trompeuses et potentiellement dangereuses ». Mais également que 20 % d’entre elles ont en outre rajouté des « inexactitudes factuelles » qui ne figuraient pas dans les articles pourtant mentionnés.
Plus d’une centaine (au moins, et probablement plusieurs centaines, voire milliers) des sites GenIA que nous avions initialement identifiés plagient en outre des articles de véritables journalistes, sans mentionner leurs sources ni préciser qu’ils ont été générés avec des IA. Ils sont pourtant, pour la plupart, référencés sur Google Actualités, et parfois relayés par son IA de recommandation algorithmique Discover. Certains se contentent de traduire des articles en français quand d’autres les paraphrasent, rendant leurs plagiats plus difficiles à identifier.
Interrogé par Arrêt sur images, à qui nous avions transmis notre enquête à son sujet, le patron du groupe de presse Économie Matin, par ailleurs co-directeur pédagogique d’une école de journalisme d’extrême-droite, a reconnu que ses articles étaient bien générés par IA, contrairement à ce que son rédacteur en chef adjoint prétendait initialement. Ce dernier, par ailleurs « prompt engineer » du groupe, attribue de son côté les dizaines de plagiats que nous avons en outre identifiés à un « bug du script » envoyé à ChatGPT qui, « étant complètement idiot, parfois, ne fait pas ce qu’on lui dit » (sic).
Notre enquête nous a valu quelques remarques acerbes de la part de professionnels du SEO, au motif que le fait de rendre public le fait que certains de leurs sites sont GenAI pourrait nuire à leur business :
« Les gens veulent manger de la merde ? Donnez en leur à la pelle plutôt que d essayer de buzzer et cherchant à bousiller le business de milliers de sites. »
L’un d’entre eux nous a par exemple rétorqué que de nombreux médias français avaient récemment relayé une « rumeur »… qu’ils n’auraient cela dit probablement pas relayée si les journalistes avaient été informés que l’information initiale avait en fait été « hallucinée » dans des articles générés par IA.
Les sites d’information de la presse quotidienne régionale (PQR) sont, eux aussi, de plus en plus victimes de pure players qui les concurrencent, voire les plagient, tout en étant générés par des IA. Si certains se positionnent comme des « médias indépendants », d’autres ne cherchent qu’à faire du clic. Au point que des journalistes de la PQR se retrouvent à devoir fact-checker des infos erronées car « hallucinées » par les IA qui les publient.
Après avoir analysé un échantillon de 8 795 posts LinkedIn publics de plus de 100 mots publiés entre janvier 2018 et octobre 2024, une start-up de détection de contenus générés par IA a par ailleurs découvert que plus de 50 % d’entre eux étaient GenAI, et que le nombre de messages longs susceptibles d’avoir été générés par IA avait explosé de 189 % dans les mois suivants le lancement de ChatGPT.
[à suivre…]