Sora OpenAI

L’annonce fracassante d’OpenAI sur la naissance de Sora, une nouvelle IA générative de texte à vidéo, a secoué le monde de la technologie. Les implications de cette avancée sont vastes, allant de la création visuelle à la simulation du monde physique.

Sora : Le Futur de la Vidéo par OpenAI

OpenAI vient de dévoiler Sora, un nouveau modèle d’IA pour la création vidéo qui utilise des instructions textuelles pour générer des vidéos dans pratiquement n’importe quel style imaginable. Cette organisation de recherche en intelligence artificielle a publié une série de vidéos créées à partir d’instructions écrites, et le résultat est impressionnant. Des experts de l’industrie ont souligné la qualité des vidéos créées et développées par plusieurs autres modèles de conversion texte-vidéo. Ils ont affirmé que son introduction pourrait faire un grand pas en avant dans l’IA et la génération de vidéos à partir de texte.

Sora est un modèle de génération vidéo à grande échelle. Plusieurs types de données, notamment des vidéos et des images de différentes durées, résolutions et ratios, ont entraîné Sora. Il utilise l’intelligence artificielle générative pour créer des clips basés sur des instructions écrites, mais il pourrait aller au-delà de cela. Le mot japonais pour ciel, qui fait référence à son “potentiel créatif illimité”, a inspiré les développeurs pour choisir son nom.

Principe des capacités de Sora en génération vidéo

Le système a été appelé un “générateur de texte-vidéo”, mais selon OpenAI, il est bien plus que cela. Non seulement il peut générer des vidéos à partir d’instructions textuelles, mais il peut également être sollicité avec plusieurs types d’entrées, telles que des images ou des vidéos préexistantes, qui peuvent être utilisées pour créer des vidéos en boucle, des images statiques animées et pour prolonger les vidéos vers l’avant ou vers l’arrière dans le temps. De plus, des capacités telles que la cohérence à longue portée, la permanence des objets et l’interaction avec l’environnement suggèrent que le système a le potentiel de simuler des aspects du monde physique et numérique.

Sora utilise une “architecture transformateur” qui fonctionne sur des “patches espace-temps” de codes latents vidéo et image. L’architecture permet au modèle de générer des vidéos haute fidélité. Les patches agissent comme des jetons de transformateur qui permettent à Sora de s’entraîner sur des vidéos et des images quel que soit leur format. Il utilise également un réseau de compression vidéo pour réduire la dimensionnalité des données visuelles, ce qui permet une meilleure formation et génération de vidéos dans un espace latent compressé.

Sora a non seulement généré mais également animé cette image réaliste de chiots jouant dans la neige, sous la forme d’une vidéo. © OpenAI

Yann LeCun émet des réserves

Cependant, le système n’est pas sans ses critiques. Yann LeCun, une figure majeure de l’intelligence artificielle, a émis des réserves quant à la méthode utilisée par OpenAI pour modéliser le monde réel avec Sora. Il estime que l’approche de l’éditeur, qui consiste à générer des pixels à partir de variables latentes, est vouée à l’échec. Selon lui, les modèles d’OpenAI cherchent à déduire trop de détails qui ne sont pas pertinents, ce qui n’est pas efficace pour modéliser le monde réel.

Pour Yann LeCun, la méthode générative avec ChatGPT a bien fonctionné en raison du nombre défini de symboles dans le texte. Cependant, pour simuler le monde réel, c’est un défi beaucoup plus complexe. Meta, la société mère de Facebook, travaille également sur son propre modèle d’IA capable de créer des vidéos, baptisé Video Joint Embedding Predictive Architecture (V-JEPA). L’approche de LeCun et de son équipe est différente, cherchant à aller à l’essentiel en éliminant ce qui est imprévisible plutôt que de déduire des pixels.

Ces critiques soulignent les défis et les controverses entourant le développement de systèmes de génération vidéo basés sur l’IA. Alors que des progrès significatifs sont réalisés, des questions subsistent quant à l’efficacité et à l’applicabilité de ces modèles dans des contextes réels. L’avenir dira si les critiques de Yann LeCun et son modèle influenceront les décisions des entreprises concurrentes dans le domaine de la génération vidéo basée sur l’IA.

Illustration en Une : © OpenAI

Site officiel du projet : https://openai.com/sora


Sur le même sujet

Comment produire une vidéo avec des IA ? Tuto sur les IA génératives