Sora : OpenAI fait des vidéos

Et du bruit médiatique

Image may be NSFW.
Clik here to view. Une portée de chiots golden retriever jouant dans la neige. Leurs têtes émergent de la neige.

Avec Sora, OpenAI se lance sérieusement dans la course aux IA génératives de vidéos. La communication est bien huilée et les images publiées bluffantes. Les questions maintenant classiques sur l’énergie dépensée par ces outils, les sources sur lesquels les modèles sont entrainés et les garde-fous restent toujours sans réponse.

OpenAI a communiqué jeudi 15 février sur son nouveau projet, Sora, une IA générative capable de créer des vidéos très réalistes. La startup, qui a lancé la course à l’IA générative avec la publication de ChatGPT il y a maintenant un an et demi, se lance dans la génération de vidéo à la demande.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

Comme pour ChatGPT, Sora répond à un prompt tapé par l’utilisateur. Elle n’est pas la première à le faire. La Startup Runway, financée entre autres par Google, NVIDIA et Salesforce, le propose depuis plus d’un an avec ses modèles Gen-1, puis Gen-2 et son slogan « No lights. No camera. All action. ».

Mais les exemples publiés par OpenAI dans la présentation de Sora sont assez bluffants du point de vue de leur résolution, comme, au premier abord, de leur « réalisme » (on y reviendra).

Avec Sora et un prompt comme « several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field », la startup (on a failli écrire « le studio ») arrive à générer une vidéo de 10 secondes en 1080p de très bonne qualité qui semble fidèle à la demande pour les non-spécialistes de mammouths laineux que nous sommes.

Les exemples proposés par OpenAI semblent encore plus aboutis que ceux que présentait Runway en novembre dernier dans sa propre vidéo de promotion :

We have released an update for both text to video and image to video generation with Gen-2, bringing major improvements to both the fidelity and consistency of video results.

Try it now at https://t.co/ekldoIshdw pic.twitter.com/RyLiar7MFj
— Runway (@runwayml) November 2, 2023

Si on en croit les vidéos partagées par OpenAI, Sora est clairement une évolution impressionnante dans le champ de la génération d’images « text-to-video ». Comme Runway, Sora a aussi un mode « video-to-video » qui permet de partir d’une vidéo existante et de la modifier :

OpenAI just dropped their Sora research paper.

As expected, the video-to-video results are flipping spectacular Image may be NSFW.
Clik here to view.

A few other gems: pic.twitter.com/MiRe2IYkcI
— Bilawal Sidhu (@bilawalsidhu) February 16, 2024

Sa présentation par OpenAI contient beaucoup de passages « grandiloquents », comme le souligne TechCrunch. Par exemple, lorsque l’entreprise soutient que « le modèle a une compréhension approfondie de la langue, ce qui lui permet d’interpréter avec précision les messages et de générer des personnages convaincants qui expriment des émotions vibrantes » ou qu’il « comprend non seulement ce que l’utilisateur a demandé dans l’invite, mais aussi comment ces choses existent dans le monde physique ». Le fameux anthropomorphisme abondamment utilisé par le monde de l’IA et pointé par la linguiste Emily Bender est de sortie.

Sora : OpenAI fait des vidéos

Et du bruit médiatique

Des « hallucinations »

Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

Trending Articles

Celleneuve - Isis Hammam

IPEF (liste d'aptitude)

Libreville : Studio à louer au ront point de nzeng ayong (Libreville)

Dakar : studio a louer a ouest foire au 2eme etage (Dakar) 100 000 FCFA

SUNU YOONOU ZIARRE GENERALE - Comment faire sa Ziarra? Les invocations et la...

Location maison à Hodan 1

[Thermique] Code erreur E60 chaudière Geminox FCX22

enregistrement / erreur F3416-1

PowerShell et Microsoft Graph : comment envoyer des e-mails avec...

Yvelines. Disparition inquiétante à Vélizy-Villacoublay : avez-vous vu...

Table de mixage ETP MPX 4005 - 20 €

Contribution n° 01/2024 du 13 juin 2024 concernant le projet de délibération...

Rufisque : Salle de séminaire

douchka dinant

Vincennes - R1C4 - Vendredi 18 Octobre 2024 - Tiercé-Quarté-Quinté

[QGIS] Re: QGIS 3.0.3: import fichier texte délimité

Recensement au titre du port sec à Tanghin-Dassouri : L'état nominatif des...

AMPLiS ANALOGIQUE STEREO D'EXCEPTION EAA PA 1000. Révisés, avec Factures. -...

Les sims 4 fichier scratch emdomagé

Le Prince d'Egypte [FRENCH DVDRiP] | Multi Liens

Et du bruit médiatique

Des « hallucinations »

Vous devez être abonné•e pour lire la suite de cet article.Déjà abonné•e ? Générez une clé RSS dans votre profil.

Trending Articles

Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.