Quantcast
Channel: Next - Flux Complet
Viewing all articles
Browse latest Browse all 3967

Raisonnement des IA génératives : les benchmarks nous désinforment

$
0
0
Pseudo-thermomètres
Raisonnement des IA génératives : les benchmarks nous désinforment

Des études récentes montrent que les grands modèles de langage ont de bons résultats dans les tests de comparaison, car ceux-ci correspondent aux données sur lesquelles ils ont été entrainés. Il suffit d’une petite variation dans le test pour que les performances s’effondrent.

Depuis l’arrivée des grands modèles de langage (large language models, LLM), le débat sur leur capacité de raisonnement oppose les ingénieurs et chercheurs du domaine.

Certains prétendent que ces modèles permettent de créer des intelligences artificielles qui raisonnent, d’autres que ce sont de simples perroquets récitant statistiquement ce qui se trouve dans leurs données d’entrainement.

Les premiers s’appuient sur des tests de raisonnement (benchmarks) pour comparer leurs résultats à ceux de leurs concurrents et de leurs anciennes versions. De mois en mois, ils observent les scores augmenter petit à petit et certains se disent qu’un jour ou l’autre, grâce aux modèles de langage, la machine dépassera les capacités humaines.

Les autres s’appuient notamment sur le principe sur lequel ont été fondés les LLM pour expliquer qu’ils n’utilisent que des modèles de raisonnement qu’ils ont mémorisés à partir de leurs données d’entrainement. Bref, comme le disaient déjà en 2020 Emily Bender, Timnit Gebru, Angelina McMillan-Major et Margaret Mitchell, les LLM ne seraient que des « perroquets stochastiques ».

Problème de fiabilité des mesures

Plusieurs études récentes montrent que les « benchmarks » ne permettent pas de mesurer les capacités de raisonnement de ces modèles, mais plutôt leurs capacités à … répondre de façon fidèle à ces tests. Car les résultats s’effondrent quand les chercheurs leur font passer des tests similaires, mais présentant d’infimes variations.


Il reste 89% de l'article à découvrir.
Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.


Viewing all articles
Browse latest Browse all 3967

Trending Articles