Quantcast
Channel: Next - Flux Complet
Viewing all articles
Browse latest Browse all 3852

Common Corpus : des textes du domaine public pour entrainer des IA (génératives)

$
0
0
La FairIA des données
des nuages de données s'échappent des cheminées de petites maisons dessinées en rang d'oignon

Une initiative internationale menée par la startup française Pleias propose un corpus de textes du domaine public permettant d’entrainer les IA génératives tout en respectant les lois régissant les droits d’auteur : Common Corpus. Pierre-Carl Langlais, co-fondateur de Pleias, nous parle de son projet.

Et si on créait un corpus de textes pour l’entrainement des IA génératives qui respecte les lois régissant le droit d’auteur ? Voilà ce qu’ont proposé des chercheurs et ingénieurs. En effet, les intelligences artificielles génératives nécessitent un entrainement sur des milliards de textes. La plupart des entreprises qui proposent ce genre d’IA ont entrainé leurs modèles de langage sur des corpus qui regroupent des textes glanés sur Internet, mais aussi, parfois, des corpus venant de « bibliothèques clandestines » comme LibGen.

Certaines entreprises sont déjà accusées devant la justice d’avoir enfreint les copyrights de certains auteurs en s’appuyant sur ces corpus de textes dont ils n’ont pas les droits. En juillet 2023 déjà, OpenAI et Meta se retrouvaient face à une plainte de plusieurs auteurs. Plus récemment, c’est NVIDIA qui était attaquée pour violation du copyright de milliers de livres.

Une autre partie des textes très utilisés vient de la base de données Common Crawl regroupant des textes moissonnés sur le web. Si la légalité de ce genre de moissonnage pour la recherche ou pour l’indexation ne fait pas de doute, il y en a plus pour des projets commerciaux d’IA générative. L’Autorité de la concurrence aborde le sujet du bout des lèvres dans sa décision contre Google.

Le procès intenté par le New York Times contre OpenAI accusant l’entreprise d’avoir utilisé des millions d’articles du journal pour l’entrainement de ses modèles nous éclairera peut-être sur la question. Mais son issue ne devrait pas arriver avant longtemps, les deux entreprises pouvant aussi conclure un accord avant même qu’elle ait lieu.

C’est dans ce contexte tendu qu’une initiative internationale menée par la startup française Pleias propose un corpus de textes du domaine public permettant d’entrainer les IA génératives tout en respectant les lois régissant les droits d’auteur.

La preuve qu’il est possible de faire sans contenu sous copyright


Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.


Viewing all articles
Browse latest Browse all 3852

Trending Articles