Quantcast
Viewing all articles
Browse latest Browse all 3765

Sora : OpenAI fait des vidéos

Et du bruit médiatique
Image may be NSFW.
Clik here to view.
Une portée de chiots golden retriever jouant dans la neige. Leurs têtes émergent de la neige.

Avec Sora, OpenAI se lance sérieusement dans la course aux IA génératives de vidéos. La communication est bien huilée et les images publiées bluffantes. Les questions maintenant classiques sur l’énergie dépensée par ces outils, les sources sur lesquels les modèles sont entrainés et les garde-fous restent toujours sans réponse.

OpenAI a communiqué jeudi 15 février sur son nouveau projet, Sora, une IA générative capable de créer des vidéos très réalistes. La startup, qui a lancé la course à l’IA générative avec la publication de ChatGPT il y a maintenant un an et demi, se lance dans la génération de vidéo à la demande.

Comme pour ChatGPT, Sora répond à un prompt tapé par l’utilisateur. Elle n’est pas la première à le faire. La Startup Runway, financée entre autres par Google, NVIDIA et Salesforce, le propose depuis plus d’un an avec ses modèles Gen-1, puis Gen-2 et son slogan « No lights. No camera. All action. ».

Mais les exemples publiés par OpenAI dans la présentation de Sora sont assez bluffants du point de vue de leur résolution, comme, au premier abord, de leur « réalisme » (on y reviendra).

Avec Sora et un prompt comme « several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field », la startup (on a failli écrire « le studio ») arrive à générer une vidéo de 10 secondes en 1080p de très bonne qualité qui semble fidèle à la demande pour les non-spécialistes de mammouths laineux que nous sommes.

Les exemples proposés par OpenAI semblent encore plus aboutis que ceux que présentait Runway en novembre dernier dans sa propre vidéo de promotion :

Si on en croit les vidéos partagées par OpenAI, Sora est clairement une évolution impressionnante dans le champ de la génération d’images « text-to-video ». Comme Runway, Sora a aussi un mode « video-to-video » qui permet de partir d’une vidéo existante et de la modifier :

Sa présentation par OpenAI contient beaucoup de passages « grandiloquents », comme le souligne TechCrunch. Par exemple, lorsque l’entreprise soutient que « le modèle a une compréhension approfondie de la langue, ce qui lui permet d’interpréter avec précision les messages et de générer des personnages convaincants qui expriment des émotions vibrantes » ou qu’il « comprend non seulement ce que l’utilisateur a demandé dans l’invite, mais aussi comment ces choses existent dans le monde physique ». Le fameux anthropomorphisme abondamment utilisé par le monde de l’IA et pointé par la linguiste Emily Bender est de sortie.

Des « hallucinations »


Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.


Viewing all articles
Browse latest Browse all 3765

Trending Articles