Quantcast
Channel: Next - Flux Complet
Viewing all articles
Browse latest Browse all 2946

L’entrainement sur des données synthétiques, talon d’Achille de l’IA générative

$
0
0
Synthetic in, garbage out
Serpent se mordant la queue selon Flock

Dès la sortie des grands modèles de langage, certains avaient prophétisé les problèmes d’un entrainement sur des données générées par des IA. Or, une étude publiée dans la revue Nature démontre un effondrement des modèles lors d’entrainements récursifs sur des données synthétiques.

La revue Nature a publié mercredi dernier un article sur l’effondrement des modèles d’IA quand ils sont entrainés récursivement avec des textes eux-mêmes générés par des IA. Cet article n’est pas si nouveau, nous en avions déjà parlé après sa mise en ligne en mai 2023 sur la plateforme de preprint arXiv. Nous avions aussi évoqué une autre expérience (aussi décrite dans un article déposé sur arXiv), cette fois sur des images, qui corroborait ses résultats. Nature a choisi de mettre en avant cet article sur la couverture de son dernier numéro :

Mais en dehors de la validation par les pairs, sa publication dans la revue scientifique nous permet de nous attarder sur le phénomène que la chercheuse de Mozilla, Abeba Birhane, qualifie de « talon d’Achille qui fera tomber l’industrie de l’IA générative ». Précisons que, depuis notre brief, l’article a subi quelques modifications.

Comme le pointe la chercheuse, les auteurs de l’étude expliquent avoir découvert « que l’apprentissage sans discernement à partir de données produites par d’autres modèles provoque un « effondrement du modèle »un processus dégénératif par lequel, au fil du temps, les modèles oublient la véritable distribution sous-jacente des données, même en l’absence d’un changement de la distribution dans le temps ».

Interrogé par la revue dans un article journalistique accompagnant l’étude, l’un des co-auteurs, Zakhar Shumaylov, chercheur à l’Université de Cambridge explique que « le message est : nous devons faire très attention à ce qui se trouve dans nos données d’entrainement », sinon, « c’est prouvé que les choses finiront mal ».

Dans leur article, les chercheurs expliquent avoir utilisé le modèle de langage de Meta OPT-125m que l’entreprise a publié en accès ouvert sur Hugging Face en 2022. Ils l’ont « affiné » avec un ensemble d’articles de Wikipédia présélectionnés pour leur qualité, nommé Wikitext2. Le modèle est donc préparé pour générer des entrées de Wikipédia et doit théoriquement ressortir les données originales de Wikitext2, ce qui est bien le cas à la génération 0 de leur étude. Dans leur expérience, c’est le cas à ce stade.

Ils ont ensuite fait deux tests. L’un en ré-affinant cinq fois de suite le modèle avec des données synthétiques. L’autre en le ré-affinant dix fois de suite avec 10 % des données originales déjà utilisées au départ pour affiner le modèle.

Dans les deux cas, ces régimes d’entrainement provoquent une dégradation des performances. « Au fil des générations, les modèles tendent à produire les échantillons que le modèle original entrainé avec des données réelles est le plus susceptible de produire », expliquent-ils. Mais, en même temps, les générations « commencent à produire des échantillons qui n’auraient jamais été produits par le modèle original, c’est-à-dire qu’elles commencent à mal percevoir la réalité sur la base des erreurs introduites par leurs ancêtres ».

Les modèles entrainés avec des données synthétiques apprennent, mais en amplifiant les erreurs introduites génération après génération. Alors que, statistiquement, le modèle de la génération 0 n’aurait jamais généré ces erreurs, le modèle de la génération 9 les fait souvent.

Les modèles génèrent donc des contenus de moins en moins originaux et avec des erreurs de plus en plus amplifiées.

Un texte inintelligible à la neuvième génération


Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.


Viewing all articles
Browse latest Browse all 2946

Trending Articles