Pour gérer vos consentements :

Sora : comment fonctionne le nouveau modèle text-to-vidéo

La planète GenAI est en pleine ébullition. Après la déferlante ChatGPT, et dans une moindre mesure celle de DALL-E, le nouveau né de la famille OpenAI s’appelle Sora.

« Notre modèle texte-vidéo. Sora peut générer des vidéos d’une durée maximale d’une minute tout en conservant la qualité visuelle et le respect du prompt de l’utilisateur.» explique OpenAI dans un descriptif sur son site, à grand renfort de démonstrations impressionnantes des performances du nouvel outil.

Sora : comment ça marche  ?

« Sora s’appuie sur des recherches antérieures sur les modèles DALL·E et GPT. Il utilise la technique de récapitulation de DALL·E 3, qui consiste à générer des légendes hautement descriptives pour les données d’entraînement visuel. En conséquence, le modèle est capable de suivre plus fidèlement les instructions textuelles de l’utilisateur dans la vidéo générée..» explique OpenAI.

Sora est un modèle génératif de type Transformer à l’instar de DALL-E.  Il est aussi capable de prendre une image fixe et de générer une vidéo à partir de celle-ci mais aussi enrichir une vidéo existante avec de nouvelles images.


Sora : un accès réservé…pour le moment

C’est sans doute l’effet déceptif de cette annonce. Contrairement à ChatGPT et DALL-E, l’accès à l’utilisation est réservée à deux catégories d’utilisateurs.

Sora est disponible pour des Red Teams – experts dans des domaines tels que la désinformation, les contenus haineux et les préjugés — qui vont tester le modèle de manière contradictoire pour évaluer les zones critiques en termes de dommages ou de risques. D’autre part, des artistes visuels, des designers et des cinéastes vont aussi y accéder pour cerner les attentes des professionnels de la création.

Sora sera-t-il accessible au grand public ?

OpenAI ne donne aucune date d’ouverture publique et préfère insister sur les gardes fous mis en place avant une large diffusion.

« Nous travaillons avec des Red Teams — experts dans des domaines tels que la désinformation, les contenus haineux et les préjugés — qui testeront le modèle de manière contradictoire. Nous développons également des outils pour aider à détecter les contenus trompeurs, comme un classificateur de détection qui peut déterminer quand une vidéo a été générée par Sora.» explique  OpenAI

Et d’indiquer que les les métadonnées C2PA  (Coalition for Content Provenance and Authenticity ). Fondé en 2021, ce consortium, qui compte Microsoft et AWS parmi ses membres, élabore des spécifications techniques pour établir la provenance et l’authenticité du contenu.

La C2PA a livré la version 1.0 de sa norme technique pour la provenance et l’authenticité du contenu en 2021, mise à jour avec la version 1.1 puis 1.2 en 2022. La prise en charge de l’IA générative, de la vidéo et de l’audio en direct font partie des développements à venir.


Sora est-il performant ?

OpenAI admet les faiblesses actuelles de son modèle. « Il peut avoir du mal à simuler avec précision la physique d’une scène complexe et ne pas comprendre des cas spécifiques de cause à effet. Par exemple, une personne peut mordre dans un cookie, mais par la suite, le cookie peut ne pas avoir de marque de morsure. Le modèle peut également confondre les détails spatiaux, par exemple en mélangeant la gauche et la droite, et peut avoir du mal à décrire avec précision les événements qui se déroulent au fil du temps, comme suivre une trajectoire de caméra spécifique.»

Outre la collaboration avec les Red Teams ( voir plus haut),  OpenAI indique que Sora sera en mesure de «  vérifier et rejeter les  saisies de texte qui enfreignent nos politiques d’utilisation, comme celles qui demandent une violence extrême, du contenu sexuel, des images haineuses, une ressemblance avec une célébrité ou l’adresse IP d’autrui.»

Image illustration : © OpenAI

Recent Posts

PC Copilot+ : une porte d’entrée vers l’ IA locale ?

Equipés de NPU, les PC Copilot+ peuvent déployer des LLM en local. Un argument suffisant…

2 semaines ago

PCIe 5.0 : La révolution des cartes-mères est-elle en marche ?

Que vous soyez un novice dans le domaine informatique, ou avec un profil plus expérimenté,…

2 semaines ago

Cybersécurité : attention aux QR codes dans les PDF

Les attaques de phishing utilisant des QR codes frauduleux intégrés dans des documents PDF joints…

2 mois ago

Windows 11 : une mise à jour majeure apporte de nouvelles fonctionnalités

Microsoft a amorcé le déploiement de Windows 11 24H2. Passage en revue des nouvelles fonctionnalités…

3 mois ago

Microsoft 365 : comment Copilot se déploie dans toutes les applications

L'intégration de Copilot dans la suite bureautique s'accélère. Où trouver l'assistant IA et comment l'utiliser…

3 mois ago

PC Copilot + : Microsoft veut garder Recall

Microsoft annonce une phase expérimentale pour lancer Recall sur les PC Copilot+. Elle doit commencer…

4 mois ago