Et du bruit médiatique
Image may be NSFW.Clik here to view.

Avec Sora, OpenAI se lance sérieusement dans la course aux IA génératives de vidéos. La communication est bien huilée et les images publiées bluffantes. Les questions maintenant classiques sur l’énergie dépensée par ces outils, les sources sur lesquels les modèles sont entrainés et les garde-fous restent toujours sans réponse.
OpenAI a communiqué jeudi 15 février sur son nouveau projet, Sora, une IA générative capable de créer des vidéos très réalistes. La startup, qui a lancé la course à l’IA générative avec la publication de ChatGPT il y a maintenant un an et demi, se lance dans la génération de vidéo à la demande.
Introducing Sora, our text-to-video model.
— OpenAI (@OpenAI) February 15, 2024
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
Comme pour ChatGPT, Sora répond à un prompt tapé par l’utilisateur. Elle n’est pas la première à le faire. La Startup Runway, financée entre autres par Google, NVIDIA et Salesforce, le propose depuis plus d’un an avec ses modèles Gen-1, puis Gen-2 et son slogan « No lights. No camera. All action. ».
Mais les exemples publiés par OpenAI dans la présentation de Sora sont assez bluffants du point de vue de leur résolution, comme, au premier abord, de leur « réalisme » (on y reviendra).
Avec Sora et un prompt comme « several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field », la startup (on a failli écrire « le studio ») arrive à générer une vidéo de 10 secondes en 1080p de très bonne qualité qui semble fidèle à la demande pour les non-spécialistes de mammouths laineux que nous sommes.
Les exemples proposés par OpenAI semblent encore plus aboutis que ceux que présentait Runway en novembre dernier dans sa propre vidéo de promotion :
We have released an update for both text to video and image to video generation with Gen-2, bringing major improvements to both the fidelity and consistency of video results.
— Runway (@runwayml) November 2, 2023
Try it now at https://t.co/ekldoIshdw pic.twitter.com/RyLiar7MFj
Si on en croit les vidéos partagées par OpenAI, Sora est clairement une évolution impressionnante dans le champ de la génération d’images « text-to-video ». Comme Runway, Sora a aussi un mode « video-to-video » qui permet de partir d’une vidéo existante et de la modifier :
OpenAI just dropped their Sora research paper.
— Bilawal Sidhu (@bilawalsidhu) February 16, 2024
As expected, the video-to-video results are flipping spectacular Image may be NSFW.
Clik here to view.
A few other gems: pic.twitter.com/MiRe2IYkcI
Sa présentation par OpenAI contient beaucoup de passages « grandiloquents », comme le souligne TechCrunch. Par exemple, lorsque l’entreprise soutient que « le modèle a une compréhension approfondie de la langue, ce qui lui permet d’interpréter avec précision les messages et de générer des personnages convaincants qui expriment des émotions vibrantes » ou qu’il « comprend non seulement ce que l’utilisateur a demandé dans l’invite, mais aussi comment ces choses existent dans le monde physique ». Le fameux anthropomorphisme abondamment utilisé par le monde de l’IA et pointé par la linguiste Emily Bender est de sortie.