Synthetic in, garbage out
Dès la sortie des grands modèles de langage, certains avaient prophétisé les problèmes d’un entrainement sur des données générées par des IA. Or, une étude publiée dans la revue Nature démontre un effondrement des modèles lors d’entrainements récursifs sur des données synthétiques.
La revue Nature a publié mercredi dernier un article sur l’effondrement des modèles d’IA quand ils sont entrainés récursivement avec des textes eux-mêmes générés par des IA. Cet article n’est pas si nouveau, nous en avions déjà parlé après sa mise en ligne en mai 2023 sur la plateforme de preprint arXiv. Nous avions aussi évoqué une autre expérience (aussi décrite dans un article déposé sur arXiv), cette fois sur des images, qui corroborait ses résultats. Nature a choisi de mettre en avant cet article sur la couverture de son dernier numéro :
Mais en dehors de la validation par les pairs, sa publication dans la revue scientifique nous permet de nous attarder sur le phénomène que la chercheuse de Mozilla, Abeba Birhane, qualifie de « talon d’Achille qui fera tomber l’industrie de l’IA générative ». Précisons que, depuis notre brief, l’article a subi quelques modifications.
this is the achilles heel that’ll bring the ganAI industry down
— Abeba Birhane (@Abebab) July 27, 2024
"indiscriminately learning from data produced by other models causes ‘model collapse’—a degenerative process whereby, over time, models forget the true underlying data distribution" https://t.co/vFVwLIich3
Comme le pointe la chercheuse, les auteurs de l’étude expliquent avoir découvert « que l’apprentissage sans discernement à partir de données produites par d’autres modèles provoque un « effondrement du modèle » – un processus dégénératif par lequel, au fil du temps, les modèles oublient la véritable distribution sous-jacente des données, même en l’absence d’un changement de la distribution dans le temps ».
Interrogé par la revue dans un article journalistique accompagnant l’étude, l’un des co-auteurs, Zakhar Shumaylov, chercheur à l’Université de Cambridge explique que « le message est : nous devons faire très attention à ce qui se trouve dans nos données d’entrainement », sinon, « c’est prouvé que les choses finiront mal ».
Dans leur article, les chercheurs expliquent avoir utilisé le modèle de langage de Meta OPT-125m que l’entreprise a publié en accès ouvert sur Hugging Face en 2022. Ils l’ont « affiné » avec un ensemble d’articles de Wikipédia présélectionnés pour leur qualité, nommé Wikitext2. Le modèle est donc préparé pour générer des entrées de Wikipédia et doit théoriquement ressortir les données originales de Wikitext2, ce qui est bien le cas à la génération 0 de leur étude. Dans leur expérience, c’est le cas à ce stade.
Ils ont ensuite fait deux tests. L’un en ré-affinant cinq fois de suite le modèle avec des données synthétiques. L’autre en le ré-affinant dix fois de suite avec 10 % des données originales déjà utilisées au départ pour affiner le modèle.
Dans les deux cas, ces régimes d’entrainement provoquent une dégradation des performances. « Au fil des générations, les modèles tendent à produire les échantillons que le modèle original entrainé avec des données réelles est le plus susceptible de produire », expliquent-ils. Mais, en même temps, les générations « commencent à produire des échantillons qui n’auraient jamais été produits par le modèle original, c’est-à-dire qu’elles commencent à mal percevoir la réalité sur la base des erreurs introduites par leurs ancêtres ».
Les modèles entrainés avec des données synthétiques apprennent, mais en amplifiant les erreurs introduites génération après génération. Alors que, statistiquement, le modèle de la génération 0 n’aurait jamais généré ces erreurs, le modèle de la génération 9 les fait souvent.
Les modèles génèrent donc des contenus de moins en moins originaux et avec des erreurs de plus en plus amplifiées.