Sous son meilleur jour
Image may be NSFW.Clik here to view.

L’entreprise a été épinglée hier pour des résultats de Llama 4 peu en phase avec ce qu’elle proclamait avoir obtenu dans plusieurs benchmarks. Une déception générale semble se manifester sur l’utilisation des modèles en conditions réelle, tandis que des soupçons de triche apparaissent. Meta nie avoir voulu tromper la communauté.
Meta a lancé samedi sa nouvelle famille de modèles de fondation Llama 4. Trois variantes ont été présentées, selon les cas d’usage envisagés : Scout, Maverick et surtout Behemot. Ce dernier, avec ses 2 000 milliards de paramètres, 288 milliards de paramètres actifs et 16 experts, est un colosse dont les résultats seraient pratiquement au niveau de Gemini 2.5 Pro, alors que ce dernier « raisonne » et pas Llama 4.
Pourtant, si plusieurs personnes ont commencé à s’interroger dès le dimanche, une polémique est apparue progressivement hier. Au centre de l’attention, le modèle intermédiaire Maverick, dont le score sur LLArena (1 417) ne semble pas se refléter dans les tests réalisés par un nombre croissant de chercheurs et autres experts.
Meta épinglée par LLArena
Dans son communiqué, Meta indiquait discrètement avoir utilisé une version expérimentale du modèle pour réaliser ses tests. La version mise à disposition samedi n’est cependant pas celle utilisée sur LLArena. Au point que l’équipe du site s’est fendu d’un message sur X hier après-midi pour pester contre Meta :
« L’interprétation de notre politique par Meta ne correspond pas à ce que nous attendons des fournisseurs de modèles. Meta aurait dû préciser que « Llama-4-Maverick-03-26-Experimental » était un modèle personnalisé visant à optimiser les préférences humaines. En conséquence, nous mettons à jour nos politiques de classement pour renforcer notre engagement en faveur d’évaluations équitables et reproductibles, afin d’éviter que ce genre de confusion ne se reproduise à l’avenir ».
Hier, une rumeur a également pris de l’ampleur : Meta aurait triché. Relevant qu’une publication un samedi était étrange (nous l’avions effectivement signalé), plusieurs personnes affirment que Meta aurait spécifiquement entrainé ses modèles pour les benchmarks, signale The Verge. Le cas serait semblable à celui des constructeurs de smartphones accusés d’optimisations pour les benchmarks pour mieux mettre en avant les performances de leurs produits. Performances que l’on ne retrouvait pas en utilisation réelle.
Meta nie tout en bloc
Au point qu’Ahmad Al-Dahle, ingénieur en chef sur l’intelligence artificielle chez Meta, a fini par prendre la parole hier soir pour démentir. « Comme nous avons lancé les modèles dès qu’ils ont été prêts, nous nous attendons à ce qu’il faille plusieurs jours pour que toutes les implémentations publiques se mettent en place. Nous continuerons à travailler à la correction des bogues et à l’intégration des partenaires », a-t-il déclaré pour expliquer la variabilité des résultats. Explication qui a valu au responsable quelques moqueries.
Concernant les accusations de tricherie, il réfute en bloc : « Nous avons également entendu dire que nous nous étions entraînés sur des ensembles de tests – ce n’est tout simplement pas vrai et nous ne ferions jamais cela. Nous pensons que les modèles Llama 4 représentent une avancée significative et nous sommes impatients de travailler avec la communauté pour libérer leur potentiel ».
Les commentaires en réponse font souvent état de performances médiocres, tout particulièrement dans Meta AI, censé utiliser Llama 4 dans WhatsApp, Threads et Facebook. Quelques jours avant la publication des nouveaux modèles, The Information indiquait que leur genèse avait été particulièrement complexe. Le lancement aurait été repoussé à plusieurs reprises à cause de performances inférieures aux attentes de l’entreprise.