Quantcast
Channel: Next - Flux Complet
Viewing all articles
Browse latest Browse all 3158

SynthID, le système de Google pour marquer au fer rouge les contenus générés par des IA

$
0
0
Synthetic quality certified
SynthID, le système de Google pour marquer au fer rouge les contenus générés par des IA

Depuis un an, les entreprises d’IA générative promettent d’ajouter des filigranes à leurs contenus. Google propose désormais son système nommé SynthID. Les chercheurs de Google DeepMind ont notamment décrit dans un article dans la revue Nature et publié sous licence libre la partie concernant les textes générés automatiquement.

Dans les divers problèmes liés aux contenus générés par l’IA, le fait de pouvoir les différencier de ceux créés autrement a été rapidement repéré comme le nez au milieu d’un visage. Les détecteurs d’IA générative sont pointés du doigt pour leurs faux positifs, ce qui engendre des tensions entre étudiants et enseignants.

Depuis l’avènement dans l’espace public de ces systèmes, l’ajout à ces contenus de filigranes est régulièrement évoqué pour qu’une sorte de tampon « made by AI » leur soit clairement assigné. OpenAI, Alphabet, Meta, Anthropic, Inflection, Amazon et Microsoft ont d’ailleurs promis à la Maison-Blanche l’an dernier de mettre en place ce système. En Europe, l’AI Act exige que cette disposition soit mise en place à partir du 2 aout 2026.

En aout, on apprenait qu’OpenAI avait mis en place un système permettant de tatouer les textes générés par ses IA. Mais l’entreprise hésitait à le mettre en place. En effet, cette technologie serait « efficace à 99,9 % », mais elle serait aussi relativement simple à supprimer.

Google vient, elle, de sauter le pas avec son système nommé « SynthID » développé par sa filiale DeepMind. L’entreprise indique que cet outil embarque « des filigranes numériques directement dans les images, le son, le texte ou la vidéo générés par l’IA ».

Bien sûr, le système de tatouage des divers contenus est différent selon le média. Il n’est pas possible, par exemple, d’utiliser un système de tatouage graphique pour identifier un texte. Et, à moins de trouver un très bon filigrane universel, le risque est d’harmoniser vers le bas l’utilisation de ces marques pour tous les types de médias.

Google a donc mis au point différents systèmes de filigranes dont elle présente des exemples.

Un outil libre de filigranes pour la génération de textes

Pour son système dédié aux filigranes de textes générés par IA, Google DeepMind a publié le travail de ses 24 chercheurs dans la revue scientifique Nature la semaine dernière. L’idée est de créer une « signature statistique » dans le texte généré en modifiant légèrement la procédure de génération de chaque « prochain jeton ». Cette modification ne dépend pas d’une simple variable statique, mais se fait en fonction du contexte de génération.

« L’un des principaux avantages de cette approche est que le processus de détection ne nécessite pas la réalisation d’opérations coûteuses en termes de calcul, ni même l’accès au LLM sous-jacent (qui est souvent propriétaire) », expliquent-ils.

La détection se fait avec un outil probabiliste qui prend en entrée le texte à vérifier et une clé de filigrane spécifique.

L’entreprise a publié sur GitHub sous licence libre (Apache 2.0) cet outil et propose une documentation détaillée pour les développeurs d’IA génératives qui voudraient l’utiliser. Dans celle-ci , elle explique que SynthID Text propose plusieurs options pour la vérification : full-private qui « ne libère ni n’expose le détecteur d’aucune manière », semi-private qui « ne libère pas le détecteur, mais expose via une API » et public qui « permet de libérer le détecteur pour que d’autres utilisateurs puissent le télécharger et l’utiliser ».

Elle assure que « les filigranes de texte SynthID résistent à certaines transformations, c’est-à-dire les recadrages de texte, en modifiant quelques mots ou en paraphrasant légèrement ». Mais Google admet que sa méthode, comme celle d’OpenAI, a des limites qui permettent de facilement contourner son système :

  • « L’application de filigranes est moins efficace sur les réponses factuelles, car il y a moins de possibilités d’augmenter la génération sans réduire la précision.
  • Les scores de confiance du détecteur peuvent être considérablement réduits lorsqu’un texte généré par IA est entièrement réécrit ou traduit dans une autre langue ».

Google se garde l’exclusivité de ses outils de filigrane d’audio et d’images

Toutefois, concernant les filigranes d’audio, d’images et de vidéos, l’entreprise se contente de présenter succinctement des exemples d’utilisation qui, bien évidemment, ne montrent aucune différence entre le contenu sans filigrane et avec. Mais l’entreprise ne communique ni sur le fonctionnement des systèmes mis en place ni sur leurs limites.

Elle ajoute que ces filigranes sont disponibles pour les clients de Vertex AI qui utilisent les modèles de conversion de texte en image Imagen (version 2 et 3), pour les utilisateurs de son outil de génération d’images ImageFX et pour les quelques créateurs qui ont accès à son modèle de génération de vidéos Veo.


Viewing all articles
Browse latest Browse all 3158

Trending Articles