PutAIclics
![[Enquête] Plus de 1 000 médias en français, générés par IA, polluent le web (et Google)](http://next.ink/wp-content/uploads/2024/09/Ia-desinfo.webp)
Next a identifié plus de 1 000 sites web d’information francophones faisant croire que leurs articles sont écrits par des journalistes ou des experts en la matière. Ils sont en fait générés et/ou traduits par des IA, sans le mentionner. Au moins une centaine reposent sur du plagiat, et près de 150 étaient mentionnés comme sources sur Wikipédia. Vu l’ampleur du problème, nous avons proposé au service de fact-checking CheckNews de Libération de nous aider à enquêter sur ce qui s’apparente à une véritable « pollution » numérique et médiatique. Premier volet de notre enquête.
La société NewsGuard évalue « tous les sites d’information et d’actualité (plus de 7 500 sites) dont les contenus représentent 95 % de l’engagement avec l’actualité en ligne aux États-Unis, au Royaume-Uni, au Canada, en France, en Allemagne et en Italie ».
Son observatoire de suivi de la mésinformation facilitée par l’IA répertorie par ailleurs 1 150 « sites d’actualité non fiables générés par l’IA » (GenAI ou « UAINS », pour « Unreliable AI-generated News Sites » en anglais), contre seulement 49 lorsqu’elle avait commencé à les recenser, en mai 2023.
NewsGuard souligne que « ces sites portent généralement des noms génériques […] qui ressemblent pour le lecteur à des sites d’actualité classiques » :
« Dans de nombreux cas, le modèle économique de ces sites repose sur la publicité programmatique – des publicités placées de manière algorithmique par les sociétés d’ad-tech sans se soucier de la nature ou de la qualité des sites. Par conséquent, des grandes marques soutiennent ces sites involontairement. »
Or, leurs articles « contiennent parfois de fausses affirmations, telles que des infox sur la mort de célébrités, des événements fabriqués de toutes pièces et des articles présentant des événements anciens comme s’ils venaient de se produire ».
Accessible sur abonnement, sa liste de sites GenAI, établie par près de 15 fact-checkers, concerne 16 langues. Contactée par CheckNews, la société précise que sa base de données ne contiendrait qu’une vingtaine de sites en français.
Next en a de son côté identifié plus de 1 000, rien qu’en français. Et nous avons de bonnes raisons de penser qu’il en existerait plusieurs milliers, au vu du nombre de professionnels qui ont industrialisé la production de sites d’informations générés par IA. Nous avons en effet identifié une centaine de ces pros de l’info GenAI, sans pouvoir mesurer combien de dizaines (voire de centaines) d’autres se seraient lancés dans ce douteux (mais lucratif) « business ».
Signe de l’ampleur du problème et de son inflation, cette sous-estimation (tant dans les chiffres de NewsGuard que les nôtres) semble indiquer que nous serions débordés par le phénomène, qui s’apparente à une véritable « pollution » numérique et médiatique.
Une pollution quasi invisible, puisque personne ou presque ne semblait l’avoir identifiée jusque-là. En tout cas, pas à ce point.
Une « forme hybride de plagiat » facilitée, voire générée par IA
Mi-octobre, Olivier Marino, directeur adjoint des rédactions du groupe Nice Matin, déplorait sur LinkedIn une « forme hybride de plagiat » facilitée, voire générée par l’IA. Un « média d’information et d’actualité », situé lui aussi dans le Var, publie en effet des articles « sur des histoires où nous étions parfois le seul média présent ». Ce média reprend à son compte les informations recueillies par les journalistes de Nice Matin, mais « sans source, ni lien ».
L’analyse d’un échantillon de 46 articles, effectuée par une start-up spécialisée dans la détection de contenus générés par IA, « a pu déterminer que 32 d’entre eux avaient été – selon son outil – générés via de l’IA reprenant les informations de Var-matin, mais aussi d’autres médias locaux ».
En réponse, 60 millions de consommateurs, « média sans publicité commerciale et ne vivant que de ses ventes », déplorait que ses articles étaient « très rapidement plagiés et republiés depuis des années sur des sites web truffés de pub et en accès gratuit ». Surtout ses essais comparatifs, « particulièrement coûteux à réaliser, dont l’intégralité des résultats est souvent ainsi diffusée gratuitement » :
« Jusque-là, il s’agissait surtout de réécritures « manuelles » sur les sites web de « vrais » groupes de presse (notamment un dont le nom commence par « Re »). Mais on commence à voir désormais des reprises de nos articles par des sites inconnus au bataillon, vraisemblablement rédigées par de pures IA, et très très bien classés chez Google. La presse locale est donc loin d’être la seule concernée. »
Nous avons alors répondu que nous nous apprêtions à publier une enquête à ce sujet, « ayant identifié plus de 100 sites en français se faisant passer pour des sites d’informations reposant sur le travail de journalistes, mais qui sont en fait générés par des IA, dont près de 30 reposent sur du plagiat (majoritairement d’articles étrangers, traduits en français) ».
Compte tenu du nombre d’acteurs impliqués, de médias parasités voire plagiés, et des nombreuses questions (déontologiques, juridiques, légales, médiatiques, financières, notamment) que cette prolifération de sites d’info GenAI soulève, nous avons depuis proposé au service CheckNews de fact-checking de Libération d’enquêter avec nous à ce sujet (voir leur enquête).
De 100 à plus de 1 000 sites GenAI en quelques mois seulement
Le phénomène s’est, en effet, révélé d’une ampleur nettement supérieure à ce que nous anticipions. Fin octobre (soit 15 jours après notre commentaire sur LinkedIn), lorsque nous avons contacté Libé, notre base de données était passée à 270 sites d’info GenAI. Le cap des 500 a été franchi à la veille de Noël, celui des 800 mi-janvier.
Entamée il y a près d’un an, notre enquête nous a depuis permis d’en identifier plus de 1 000, soit près de 750 de plus en seulement trois mois, dont une centaine au moins relevant du plagiat (nous y reviendrons dans un prochain article). Ce n’est pas tant que le phénomène serait en pleine expansion (une bonne partie de ces sites existent depuis des mois, voire des années), mais parce que nous avons affiné nos méthodes de détection.
La consultation des 28 pages de réponses, sur Google Actualités, à la requête « je suis désolé, mais je ne peux pas » (l’un des messages d’erreur bien connus liés à ChatGPT et ses avatars) était éloquente. Nous y avons découvert une quinzaine de sites d’infos GenAI qui, eux-mêmes, nous ont permis d’en identifier près de 250 autres, liés d’une manière ou d’une autre à leurs éditeurs respectifs. Ce, en moins d’une journée.
Nous revenons plus en détails sur les tactiques et procédures permettant de reconnaître les sites GenAI dans un second article dédié. Nous ne saurions par ailleurs que trop vous conseiller d’installer l’extension pour navigateur que nous avons développée afin d’alerter ses utilisateurs lorsqu’ils consultent un site dont les articles ont été, en tout ou partie, générés par IA.
- Comment reconnaître les sites (d’infos) générés par des IA ?
- [Outils Next] Une extension Chrome et Firefox pour être alerté des sites GenAI
S’il était prévisible que des pirates de l’info se saisissent des IA génératives pour développer de tels médias, il est par contre incompréhensible que la plupart de ces sites, référencés depuis des mois ou des années sur Google Actualités, n’en aient toujours pas été exclus, plus de deux ans après le lancement de ChatGPT puis de ses avatars.
Le SEO est-il mort ?
En janvier 2023, deux mois seulement après le lancement de ChatGPT, nous écrivions en effet que la démocratisation des intelligences artificielles génératives allait « faciliter la production d’éléments textuels assez banals, surtout destinées à booster son référencement sur Google ». Cela posait de « nouveaux risques » en matière d’accès à l’information.
Un mois plus tard, dans un article intitulé « IA : les robots conversationnels vont-ils cannibaliser les moteurs de recherche ? », nous relevions que des professionnels du référencement (ou SEO, pour « Search Engine Optimization ») s’inquiétaient de l’arrivée annoncée de ChatGPT dans Bing, et de son concurrent Bard dans Google. La question était posée : « Le SEO est-il mort ? ».
Un an plus tard, le SEO est toujours là, mais l’IA a changé la donne : par son intermédiaire, des éditeurs inondent Google Actualités de prétendus sites d’information et d’articles GenAI.
Non contents de piller à bas coûts les articles de médias rémunérant leurs journalistes, ils privent leurs rédactions des revenus publicitaires qu’ils auraient pu engendrer si les internautes avaient lu les articles originaux, et non leurs plagiats générés par IA.