
Alors que l’entreprise d’intelligence artificielle est, depuis décembre, visée par une plainte du journal américain, OpenAI répond maintenant devant les tribunaux en accusant le New York Times d’appuyer son action judiciaire sur le hacking de ses modèles.
En décembre dernier, le New York Times attaquait OpenAI et Microsoft pour violation du copyright. Le journal considère que les deux entreprises leaders du monde de l’IA générative ont violé le copyright de ses archives et le concurrencent de manière déloyale.
Dans sa plainte, le média américain affirme que Microsoft et OpenAI ont utilisé des millions de ses articles pour entrainer leurs grands modèles de langage au cœur de leurs outils d’intelligence artificielle générative ChatGPT, Bing Chat et Copilot.
OpenAI a d’abord, en janvier, répondu sur le terrain de la communication publique en expliquant qu’elle considérait que l’entrainement de ses modèles sur des contenus accessibles était un usage raisonnable encadré par le « fair use » des contenus sous copyright aux États-Unis.
Mais le leader de l’IA générative passe maintenant à la contre-offensive juridique. Dans une déclaration écrite [PDF] déposée lundi 26 février à la cour fédérale du District sud de New York, OpenAI explique à la justice américaine qu’elle considère que le journal a dû « hacker » ses produits pour sortir ses exemples.
« Hack » et violation des conditions d’utilisation
Alors que dans sa plainte, le New York Times vantait la qualité de ses articles, mettant en avant son travail important de production de journalisme de « classe internationale », d’investigation, d’informations exclusives, de journalisme spécialisé, de critique et d’analyse, etc., les avocats d’OpenAI rétorquent que « les allégations contenues dans la plainte du Times ne répondent pas aux normes journalistiques rigoureuses qui font sa renommée ».
Le journal américain reproche à OpenAI et à Microsoft une concurrence déloyale en fournissant aux utilisateurs de leurs outils des contenus quasi-complets. Pour prouver ses accusations, le New York Times a assorti sa plainte de plusieurs exemples qui permettent de constater que les utilisateurs de ChatGPT peuvent accéder au quasi-verbatim de ses articles sous paywall.
Mais l’entreprise argue que le journal a utilisé de façon problématique son outil pour en arriver là. « La vérité, qui apparaîtra au cours de cette affaire, est que le Times a payé quelqu’un pour hacker les produits d’OpenAI », affirment les avocats de l’entreprise d’IA générative dans leur déclaration écrite.
Ils ajoutent qu’ « il leur a fallu des dizaines de milliers de tentatives pour générer les résultats hautement anormaux » qui servent d’exemples dans la plainte du New York Times, suggérant que cela n’a rien d’une utilisation ordinaire.
Pour les avocats d’OpenAI, « contrairement aux allégations de la plainte, ChatGPT n’est en aucun cas un substitut à un abonnement au New York Times. Dans le monde réel, les gens n’utilisent pas ChatGPT ou tout autre produit d’OpenAI à cette fin. Ils ne le pourraient d’ailleurs pas ».
Bug ou feature ?
Comme dans sa communication publiée le mois dernier, l’entreprise assure que c’est l’exploitation d’un bug dans son système qui a permis de générer ces exemples. Elle rappelle qu’elle s’est « engagée à [le] corriger » et que l’exploitation de ce « bug » viole « de manière flagrante les conditions d’utilisation d’OpenAI ».
Une partie de la discussion devrait tourner autour de cette question, que nous connaissons bien dans le numérique : est-ce un bug ou une fonctionnalité ? Ou encore, est-ce une erreur corrigeable ou une propriété du système mis en place qui peut être atténuée ou cachée, mais inhérente à la conception ? Mais alors que les utilisateurs sont habitués à se poser cette question, ici, c’est la justice américaine qui va devoir trancher.
« Fair use » ou « vol »
L’autre sujet sur lequel les avocats du New York Times et ceux d’OpenAI vont argumenter pendant cette action en justice est la qualification de « fair use » pour l’usage de millions de contenus afin d’entraîner les IA génératives.
Dans sa plainte, le journal affirme n’avoir « jamais donné l’autorisation à aucune entité, y compris les accusés, d’utiliser son contenu à des fins d’IA générative ». Mais OpenAI considère que « qu’il est clair depuis longtemps que l’utilisation non consommatrice de matériel protégé par le copyright (comme la formation de grands modèles de langage) est protégée par le « fair use » ».
L’entreprise donne des exemples d’utilisation du fair use en montrant avec ironie que le New York Times l’utilise (ce qui n’est pas très étonnant) mais aussi que le fair use a été utilisé en justice pour « protéger des innovations utiles comme l’enregistrement vidéo à domicile, la recherche sur internet, les outils de recherche de livres, la réutilisation d’API, et bien d’autres encore ».
Mais ici, nous sommes dans un cas un peu différent puisque c’est l’utilisation de millions de contenus entiers par une seule entité commerciale qui est pointée par le journal. C’est d’ailleurs en ce sens que ce cas est très suivi : il pourrait instaurer une jurisprudence sur l’utilisation massive par les entreprises d’IA génératives de contenus créés par d’autres.