L’entrainement sur des données synthétiques, talon d’Achille de l’IA générative

Synthetic in, garbage out

Dès la sortie des grands modèles de langage, certains avaient prophétisé les problèmes d’un entrainement sur des données générées par des IA. Or, une étude publiée dans la revue Nature démontre un effondrement des modèles lors d’entrainements récursifs sur des données synthétiques.

La revue Nature a publié mercredi dernier un article sur l’effondrement des modèles d’IA quand ils sont entrainés récursivement avec des textes eux-mêmes générés par des IA. Cet article n’est pas si nouveau, nous en avions déjà parlé après sa mise en ligne en mai 2023 sur la plateforme de preprint arXiv. Nous avions aussi évoqué une autre expérience (aussi décrite dans un article déposé sur arXiv), cette fois sur des images, qui corroborait ses résultats. Nature a choisi de mettre en avant cet article sur la couverture de son dernier numéro :

Mais en dehors de la validation par les pairs, sa publication dans la revue scientifique nous permet de nous attarder sur le phénomène que la chercheuse de Mozilla, Abeba Birhane, qualifie de « talon d’Achille qui fera tomber l’industrie de l’IA générative ». Précisons que, depuis notre brief, l’article a subi quelques modifications.

this is the achilles heel that’ll bring the ganAI industry down

"indiscriminately learning from data produced by other models causes ‘model collapse’—a degenerative process whereby, over time, models forget the true underlying data distribution" https://t.co/vFVwLIich3
— Abeba Birhane (@Abebab) July 27, 2024

Comme le pointe la chercheuse, les auteurs de l’étude expliquent avoir découvert « que l’apprentissage sans discernement à partir de données produites par d’autres modèles provoque un « effondrement du modèle » – un processus dégénératif par lequel, au fil du temps, les modèles oublient la véritable distribution sous-jacente des données, même en l’absence d’un changement de la distribution dans le temps ».

Interrogé par la revue dans un article journalistique accompagnant l’étude, l’un des co-auteurs, Zakhar Shumaylov, chercheur à l’Université de Cambridge explique que « le message est : nous devons faire très attention à ce qui se trouve dans nos données d’entrainement », sinon, « c’est prouvé que les choses finiront mal ».

Dans leur article, les chercheurs expliquent avoir utilisé le modèle de langage de Meta OPT-125m que l’entreprise a publié en accès ouvert sur Hugging Face en 2022. Ils l’ont « affiné » avec un ensemble d’articles de Wikipédia présélectionnés pour leur qualité, nommé Wikitext2. Le modèle est donc préparé pour générer des entrées de Wikipédia et doit théoriquement ressortir les données originales de Wikitext2, ce qui est bien le cas à la génération 0 de leur étude. Dans leur expérience, c’est le cas à ce stade.

Ils ont ensuite fait deux tests. L’un en ré-affinant cinq fois de suite le modèle avec des données synthétiques. L’autre en le ré-affinant dix fois de suite avec 10 % des données originales déjà utilisées au départ pour affiner le modèle.

Dans les deux cas, ces régimes d’entrainement provoquent une dégradation des performances. « Au fil des générations, les modèles tendent à produire les échantillons que le modèle original entrainé avec des données réelles est le plus susceptible de produire », expliquent-ils. Mais, en même temps, les générations « commencent à produire des échantillons qui n’auraient jamais été produits par le modèle original, c’est-à-dire qu’elles commencent à mal percevoir la réalité sur la base des erreurs introduites par leurs ancêtres ».

Les modèles entrainés avec des données synthétiques apprennent, mais en amplifiant les erreurs introduites génération après génération. Alors que, statistiquement, le modèle de la génération 0 n’aurait jamais généré ces erreurs, le modèle de la génération 9 les fait souvent.

Les modèles génèrent donc des contenus de moins en moins originaux et avec des erreurs de plus en plus amplifiées.

L’entrainement sur des données synthétiques, talon d’Achille de l’IA générative

Synthetic in, garbage out

Un texte inintelligible à la neuvième génération

Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

Trending Articles

ULM : SPACEK SD1 Minisport Briggs & Stratton (Luxembourg) AP180823018

BAMBILOR - Suivez la Conference 2018 de l'Institut Islamique Darou Salam Gaye

douchka dinant

ESP Easy : flasher le firmware avec esptool.py sur ESP8266 (GitHub)

arracheuse super comete, ets champenois, N°951

Celestion Ditton88 a reparer - 250 €

Polifaktor Polifaktor 560 Timonier - 14.000 EUR

Comment nettoyer une tache cassis ?

Bertoua : Les défis du lycée technique de Nkolbikon

Arrêté n° 2020-6148/GNC-Pr du 4 mai 2020 admettant Mme Barberine Hofman,...

La Famille Barbapapa - L'intégrale - 9 DVD [FRENCH][DVDRIP]

Flash info de 19H du vendredi 26 septembre 2014 - Sen-Tv

Dysgraphie : évaluation avec l'échelle BHK

Monsieur ROSINET ÉMILE MAURICE

Paire d'enceintes actives MONTARBO NM250A bi-amplifiées 250w rms pour façade...

Madagascar : Enlèvement de Moustafa Hiridjee, l'une des familles karana les...

mise en marche ERNAULT-SOMUA type HES 300

Cameroun : les exportations de bananes en hausse

[Questions général...] Budget moyen mini piscine (10m2)

Yaoundé : Formation en billetterie aérienne (Yaoundé)

Synthetic in, garbage out

Un texte inintelligible à la neuvième génération

Vous devez être abonné•e pour lire la suite de cet article.Déjà abonné•e ? Générez une clé RSS dans votre profil.

Trending Articles

Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.