Sora : mauvaise nouvelle pour le générateur de vidéos d’OpenAI
Si OpenAI a impressionné le public grâce à sa vidéo de présentation de Sora, les choses sont en réalité bien plus compliquées qu’il n’y paraît. En effet, cette dernière n’a pas été générée par un amateur, mais a été réalisée par une équipe de production professionnelle…
Plus tôt cette année, OpenAI dévoilait Sora, un puissant générateur de vidéos utilisant l’intelligence artificielle. La vidéo de présentation de Sora montre de simples invites textuelles se transformer en extrait vidéo. On peut par exemple y voir une entrée demandant : “Un chiot Golden Retriever qui sort sa tête de la neige”, avant que l’IA ne s’exécute et propose une vidéo plus vraie que nature. Et pourtant, ce genre de résultat ne serait pas si simple à obtenir…
Il est ici question d’un petit court-métrage proposé par OpenAI, baptisé “Air Head”. Au cours de ce dernier, on peut voir un homme dont la tête a été remplacée par un ballon. Mais si ce film est bien estampillé OpenAI, celui-ci a été réalisé par Shy Kids, une équipe de production numérique basée à Toronto qui a été choisie pour produire des courts-métrages essentiellement à des fins promotionnelles pour OpenAI.
Sora : une véritable équipe de professionnels
Ainsi, tandis qu’OpenAI laisse à penser que ces vidéos sont entièrement générées par Sora, celles-ci sont en réalité de véritables productions professionnelles, avec un storyboard robuste, un montage, une correction des couleurs et un travail de post-production poussé. D’ailleurs, selon un ancien animateur de Pixar, ces retouches nécessaires font que Sora est encore loin d’avoir sa place à Hollywood.
On peut ainsi comparer cette méthode à celle utilisée par Apple et ses vidéos “Tournées à l’iPhone”. En effet, si un smartphone a bien servi à capturer les images, Apple ne montre pas l’installation du studio, l’éclairage professionnel ainsi que l’étalonnage effectué, lui aussi, par un professionnel.
Patrick Cederberg, l’un des artistes à qui l’on doit le court métrage Air Head, précise : “Le contrôle reste l’élément le plus souhaitable et le plus insaisissable à ce stade… Le plus proche que nous pouvions obtenir était d’être hyper-descriptif dans nos messages. Expliquer la garde-robe des personnages, ainsi que le type de ballon, était notre façon de contourner la cohérence, car d’un plan à l’autre / d’une génération à l’autre, il n’y a pas encore d’ensemble de fonctions en place pour un contrôle total de la cohérence.”
Source : techcrunch