
OpenAI Sora : un nouveau modèle d'IA texte-vidéo donne des résultats incroyables

Il n'y a pas si longtemps, les vidéos d'IA faisaient penser à de mauvais trips de drogue. Aujourd'hui au moins, les choses changent, car OpenAI a présenté son modèle d'IA text-to-vidéo Sora. Les vidéos qu'il crée, qui peuvent durer jusqu'à 60 secondes, ont de quoi séduire.
L'éditeur de logiciels américain OpenAI a présenté un nouveau modèle d'IA. Sora convertit des prompts de texte en scènes vidéo complexes pouvant durer jusqu'à une minute. Celles-ci peuvent contenir différents personnages et donner des résultats réalistes ou fantaisistes, difficilement exprimables par des mots. Et ce, bien que les vidéos elles-mêmes soient basées sur des mots. La deuxième scène, que l'on peut voir dans la vidéo suivante, est basée sur le texte prompt suivant : "Une portée de chiots Golden Retriever joue dans la neige. Leurs têtes dépassent de la neige et en sont recouvertes."
Si vous voulez savoir quelle saisie de texte a conduit à chaque résultat, vous trouverez les différentes vidéos et prompts sur le site OpenAI.
Sora dispose non seulement d'une compréhension approfondie du langage pour interpréter l'input, mais aussi d'une connaissance de la façon dont les choses se comportent dans le monde physique. Malgré cela, les vidéos sont encore loin d'être parfaites. Si vous regardez attentivement, vous découvrirez l'une ou l'autre erreur.
L'OpenAI le sait également. La société indique que la physique présente des faiblesses dans les scènes complexes. Il peut y avoir des confusions dans les détails spatiaux, ainsi que dans les séquences temporelles telles que les mouvements de caméra. OpenAI indique également qu'il est possible que Sora ne comprenne pas certains cas de cause à effet : "Par exemple, une personne pourrait mordre dans un biscuit, mais il se peut que le biscuit ne porte aucune trace de morsure après coup."
Techniquement, Sora est un modèle de diffusion capable de créer des vidéos entières en une seule fois ou d'en prolonger une existante. De même, il est possible d'utiliser une image fixe comme modèle au lieu d'une entrée de texte. Pour l'instant, Sora n'est disponible que pour un groupe sélectionné de testeurs. On ne sait pas encore quand le modèle d'IA sera mis à la disposition du public, ni à quel prix.


Le baiser quotidien de la muse stimule ma créativité. Si elle m’oublie, j’essaie de retrouver ma créativité en rêvant pour faire en sorte que mes rêves dévorent ma vie afin que la vie ne dévore mes rêves.