Les sous-titres de plus de 53 000 films et 85 000 épisodes de séries utilisés pour entraîner des IA

I'll be back

Inclus dans la fameuse archive The Pile, un ensemble de sous-titres tirés du site OpenSubtitles est utilisé depuis plusieurs années par des entreprises comme Apple, Anthropic, Meta ou Nvidia pour entraîner leurs IA génératives.

Pour entrainer les modèles de langage, les entreprises d’IA génératives ont besoin de quantités massives de données pour que leurs outils puissent générer des contenus les plus proches possibles de contenus créés par des humains.

Elles utilisent le travail des « data workers » pour obtenir des données. Mais, comme nous l’avons plusieurs fois évoqué ici, elles puisent aussi dans des bases de données de contenus dont la légalité est discutée.

Le système de production de l’IA reproduit et amplifie les dépendances économiques historiques

En début d’année, nous montrions que Midjourney recrache, parfois sans même qu’on le lui demande, des images Pixar et d’œuvres protégées.

Les IA génératives entrainées sur les dialogues du Parrain ou de Pulp Fiction

La semaine dernière, The Atlantic a expliqué que plusieurs de ces modèles utilisent des milliers de sous-titres de films pour leur entrainement. Cela expliquerait que des auteurs de dialogues puissent régulièrement retrouver leur travail dans les réponses des chatbots comme ChatGPT.

Pour le vérifier, le média américain a téléchargé The Pile, une archive déjà pointée du doigt, par exemple dans un procès contre NVIDIA, pour compiler des livres numériques protégés par le copyright. The Atlantic y a recensé plus de 53 000 fichiers de sous-titres de films et 85 000 d’épisodes de séries. Y figurent des films comme Le Parrain, Pulp Fiction ou encore Star Wars: Clone Wars.

IA générative : NVIDIA attaquée pour violation du Copyright

Tous ces sous-titres viennent, de fait, du site de téléchargement de sous-titres Opensubtitles. Si les auteurs de The Pile n’ont pas caché avoir rassemblé près de 20Go de données venant de ce site, l’information a été peu (si ce n’est pas) relevée.

De GPT-3 à de récents modèles d’Apple

L’archive The Pile n’a pas seulement été utilisée par NVIDIA. GPT-3 d’OpenAI est cité comme exemple par le site du groupe de recherche EleutherAI qui a créé l’archive, même si OpenAI a détruit les jeux de données avec lesquels elle a entrainé ses premiers modèles.

Les modèles OPT de Meta, en 2022, et les modèles OpenELM d’Apple, créés en avril dernier, s’appuient aussi sur The Pile, expliquent dans leurs articles les chercheurs des deux entreprises [PDF, PDF]. Et sur Hugging Face, plus de 220 modèles utilisant cette archive sont recensés.

Les sous-titres, une source pour le rythme et le style des discussions orales

Si les livres utilisés par les entreprises d’IA génératives pour entraîner leurs IA leur permettent de générer des textes proches de ce que peuvent créer les écrivains, les sous-titres leur amènent d’autres données précieuses sur la langue. Ils sont une source d’information importante sur la façon dont sont rythmées nos conversations, ainsi que le style linguistique que les humains utilisent à l’oral.

Sur son site, le syndicat des auteurs britanniques WGGB a réagi en affirmant que les écrivains « sont à juste titre en colère et préoccupés par cette nouvelle ». Il indique s’opposer « fermement à cette mainmise sur le travail des écrivains et a mené une campagne et un lobbying acharnés sur cette question ». Il demande à ce que les auteurs soient rémunérés pour l’utilisation de leur travail de cette manière et qu’un organisme de régulation soit mis en place.

The Atlantic a créé un petit outil permettant de rechercher les sous-titres de tel film, telle autrice ou tel acteur.

Les sous-titres de plus de 53 000 films et 85 000 épisodes de séries utilisés pour entraîner des IA

I'll be back

Les IA génératives entrainées sur les dialogues du Parrain ou de Pulp Fiction

De GPT-3 à de récents modèles d’Apple

Les sous-titres, une source pour le rythme et le style des discussions orales

Trending Articles

Celleneuve - Isis Hammam

IPEF (liste d'aptitude)

Libreville : Studio à louer au ront point de nzeng ayong (Libreville)

Dakar : studio a louer a ouest foire au 2eme etage (Dakar) 100 000 FCFA

SUNU YOONOU ZIARRE GENERALE - Comment faire sa Ziarra? Les invocations et la...

Location maison à Hodan 1

[Thermique] Code erreur E60 chaudière Geminox FCX22

enregistrement / erreur F3416-1

PowerShell et Microsoft Graph : comment envoyer des e-mails avec...

Yvelines. Disparition inquiétante à Vélizy-Villacoublay : avez-vous vu...

Table de mixage ETP MPX 4005 - 20 €

Contribution n° 01/2024 du 13 juin 2024 concernant le projet de délibération...

Rufisque : Salle de séminaire

douchka dinant

Vincennes - R1C4 - Vendredi 18 Octobre 2024 - Tiercé-Quarté-Quinté

[QGIS] Re: QGIS 3.0.3: import fichier texte délimité

Recensement au titre du port sec à Tanghin-Dassouri : L'état nominatif des...

AMPLiS ANALOGIQUE STEREO D'EXCEPTION EAA PA 1000. Révisés, avec Factures. -...

Les sims 4 fichier scratch emdomagé

Le Prince d'Egypte [FRENCH DVDRiP] | Multi Liens