OpenAI dévoile Sora, un modèle d'IA pour la conversion de texte en vidéo

Par: Bohdan Kaminskyi | 15.02.2024, 21:11

OpenAI

OpenAI a annoncé un nouveau modèle de génération vidéo appelé Sora, qui peut créer des vidéos réalistes et fantastiques d'une durée maximale d'une minute à partir d'une description textuelle.

Ce que nous savons

Selon OpenAI, Sora crée des scènes complexes à plusieurs figures en plaçant précisément des objets et des personnages dans le cadre. Le modèle est également capable de générer différents types de mouvements.

Voici Sora, notre modèle de conversion de texte en vidéo.

Sora peut créer des vidéos d'une durée maximale de 60 secondes présentant des scènes très détaillées, des mouvements de caméra complexes et de multiples personnages aux émotions vibrantes. https://t.co/7j2JN27M3W

Invitation : "Beau, enneigé... pic.twitter.com/ruTEWn87vf
- OpenAI (@OpenAI) 15 février 2024

Les développeurs ont noté la capacité de l'IA à détailler les arrière-plans, les objets individuels et les personnages. De plus, elle peut générer des visages de personnages aux émotions colorées et variées.

Invitation : "Une bande-annonce de film présentant les aventures d'un homme de l'espace de 30 ans portant un casque de moto en laine tricotée rouge, ciel bleu, désert de sel, style cinématographique, filmé en 35 mm, couleurs vives." pic.twitter.com/0JzpwPUGPB
- OpenAI (@OpenAI) 15 février 2024

Prompt : "Plusieurs mammouths laineux géants s'approchent en marchant dans une prairie enneigée, leur longue fourrure laineuse souffle légèrement dans le vent pendant qu'ils marchent, des arbres couverts de neige et des montagnes enneigées spectaculaires au loin, la lumière du milieu de l'après-midi avec des nuages vaporeux et un soleil haut dans le lointain... pic.twitter.com/Um5CWI18nS
- OpenAI (@OpenAI) 15 février 2024

OpenAI affirme que son modèle a une certaine "compréhension" des lois physiques du monde réel. Cependant, il y a parfois des difficultés à créer des scènes complexes et des relations de cause à effet.

En plus de synthétiser des vidéos à partir de zéro, Sora peut affiner et étendre des vidéos existantes. Il est capable de compléter des images manquantes dans une séquence d'images.

Sora n'est actuellement disponible que pour les "red teamers" qui évaluent le modèle en fonction des dommages et des risques potentiels. OpenAI a également ouvert l'accès à certains artistes visuels, concepteurs et cinéastes afin de recueillir leurs commentaires.

Source : OpenAI

Intelligence artificielle