It's not a bug, it's a feature

Le nombre exponentiel de contenus « GenAI » polluant le web est tel qu’il devient parfois difficile de distinguer les contenus émanant d’êtres humains de ceux générés par des IA. Nous avons, a contrario, identifié plusieurs « faux positifs » dans le cadre de notre enquête sur les sites d’info GenAI. Après avoir expliqué comment identifier de tels contenus, il nous semble important d’expliquer comment nous avons décelé ces « faux positifs », de sorte de ne pas, non plus, contribuer à la « panique morale » autour de la GenAI. L’exercice nous a par ailleurs permis de mettre au jour, dans la presse régionale, des pratiques éditoriales qui, si elles ne reposent que partiellement sur de la GenAI, n’en restent pas moins discutables faute d’avoir été correctement supervisées.
Six mois seulement après le lancement, fin 2022, de ChatGPT, des sites d’information anglo-saxons, comme RollingStone et The Markup, rapportaient déjà le cas d’étudiants accusés, à tort, d’avoir rendu des devoirs rédigés grâce au chatbot d’OpenAI. En cause, notamment, le fait que l’anglais n’étant pas leur langue maternelle, leurs textes étaient plus « plats » que ceux écrits par des natifs, et ressemblaient donc aux textes synthétiques générés par l’IA.
Depuis, et même si ChatGPT et ses avatars se sont considérablement améliorés, et qu’il existe beaucoup de services web destinés à « humaniser » les textes GenAI, et tromper les détecteurs de contenus générés par IA, l’explosion du nombre de ce type de contenus disponible en ligne augmente statistiquement la probabilité de tels « faux positifs », et donc que des contenus générés par des humains soient identifiés à tort comme GenAI.
Or, cette « pollution » de contenus « synthétiques », car GenAI, à laquelle nous assistons ne saurait faire de l’IA l’« idiot utile » non plus que le « coupable désigné » des potentiels problèmes éditoriaux auxquels nous pourrions être confrontés. Si les contenus bas de gamme (AI « slop ») sont relativement faciles à identifier, d’autres deviennent quasiment impossibles à distinguer.
Or, et de même que les journalistes (a fortiori d’investigation), enquêteurs de police judiciaire ou analystes du renseignement sont « a priori » censés enquêter « à charge et à décharge », en évitant les biais cognitifs et les approximations, on ne saurait partir du postulat qu’un contenu « suspect » serait forcément « coupable ». Les nombreux exemples de « faux positifs » que nous avons identifiés dans le cadre de notre enquête sur les sites d’information GenAI devraient à ce titre appeler à la mesure et à la prudence.
Le problème n’est pas d’avoir recours à la GenAI, en soi, mais de ne pas être transparent en la matière. D’aucuns utilisent de façon légitime ce type de contenus GenAI, de façon « supervisée », en mode « rédacteurs hybrides », avec des contenus estampillés comme tels.
Comme indiqué dans notre article expliquant comment reconnaître ces contenus GenAI, ces derniers partagent un certain nombre de caractéristiques, techniques, tactiques et procédures (TTP), mais s’ils peuvent dresser un « faisceau d’indices », ils ne sauraient, pour autant, servir de « preuves ».
Nous avions résumé ces TTP dans l’article présentant l’extension (Chrome et Firefox) que nous avons développée pour alerter les internautes lorsqu’ils consultent les sites d’information « en tout ou partie » GenAI que nous avons identifiés.
En cliquant sur le bouton de l’extension, vous retrouverez en effet cette grille de lecture (non cumulative, ni exhaustive) :
- Ils ont recours à des expressions, patterns ou hallucinations typiques des contenus GenAI,
- sont signés de journalistes qui n’existent pas et/ou dont l’hyperproductivité est inhumaine,
- ne sont que des traductions et/ou paraphrases d’autres articles (mais sans les mentionner),
- ont recours à des images générées par IA ne correspondant pas aux critères journalistiques,
- alignent des poncifs lénifiants ou moralisants plutôt que de présenter et recouper des faits,
- ont été publiés sur un site sans mention légale (ou fictive) ou sans directeur de publication,
- usurpent la réputation de « noms de domaine expirés » pour cibler Google News & Discover,
- s’apparentent plus à des contenus optimisés pour le SEO qu’à des articles journalistiques.
7 sites GenAI avant d’arriver à trouver une « vraie » info
Son utilité nous a depuis et notamment été démontrée par un commentaire partagé par fdorin expliquant que « Le problème, c’est que les sites GenIA sont tellement faciles à faire qu’ils pullulent sur internet. L’autre jour, je cherchais un lien pour donner une source, j’ai dû faire 7 sites avant d’en avoir un non GenAI ».
Or, son lien, publié en commentaire d’une autre actu, renvoyait… lui aussi à un site d’info GenAI, signe qu’il devient parfois de plus en plus difficile d’identifier un article fiable et non-GenAI.
Depuis le lancement de notre extension, il y a un mois et demi, ses utilisateurs nous ont signalé plus de 400 sites potentiellement GenAI, et nous profitons de l’occasion pour les (et vous) en remercier, le nombre de sites GenAI répertoriés par nos soins étant depuis passé de 1 000 à plus de 3 000.
Pour autant, nous avons aussi reçu des dizaines de signalements au sujet de… sites GenAI qui sont pourtant d’ores et déjà « flagués » par notre extension, ou encore de la page de présentation de notre extension Firefox, son pendant Chrome ayant par ailleurs été pollué par un commentaire négatif, émanant d’un serial-éditeur de sites GenAI nous accusant de « Censure moderne » (sic : n’hésitez pas à y rajouter des notes et commentaires positifs).
Nous avons aussi fait l’objet de plusieurs signalements au sujet de sites que nous avons eu du mal à identifier comme étant « en tout ou partie » GenAI, voire qui ne l’étaient pas, ou encore des sites précisant bien qu’ils étaient « en tout ou partie » générés pas IA. Notre extension ne signale d’ailleurs pas ces derniers puisqu’ils le mentionnent eux-mêmes. Voir par exemple, à titre d’exemple, le site d’actualités alimenté par IA créé en seulement 2 heures par Sébastien Gavois, ou les deux sites GenAI créés à des fins d’expérimentation par Ari Kouts.
À mesure que certaines des caractéristiques, techniques, tactiques et procédures (TTP) des sites d’info GenAI peuvent effectivement sembler particulièrement subtiles, et réclamer un examen plus approfondi… ces signalements nous ont aussi permis de découvrir que certains d’entre eux pouvaient relever de « faux positifs », identifiés à tort comme étant « en tout ou partie » générés par IA.