Anciens vs Modernes ?

Après l’annonce par le journal américain du dépôt d’une plainte pour violation du copyright, OpenAI répond en argumentant notamment que l’entrainement des modèles d’intelligence artificielle correspond à un usage du « fair use » et que la « régurgitation » d’extraits d’articles du journal n’est qu’un bug rare.
Fin décembre, le New York Times annonçait via un article publié par deux de ses journalistes avoir porté plainte contre OpenAI et Microsoft. La plainte affirme notamment que ces entreprises ont utilisé des millions d’articles du journal pour entraîner leur famille de grands modèles de langage (Large language models en anglais, LLM) GPT utilisée par ChatGPT, Bing Chat et Copilot.
Mais elle expliquait aussi que « le grand modèle de langage GPT-4 actuel produit des copies quasi-verbatim de parties significatives des œuvres du Times ». Le journal montrait aussi dans ce document que les utilisateurs de ChatGPT pouvaient accéder au quasi-verbatim de ses articles sous paywall. La plainte donne quelques exemples comme ceux-ci :


Cette semaine, l’entreprise propriétaire de ChatGPT a publié une réponse sur son blog contredisant cette attaque en justice.