OpenAI : cette nouvelle IA est capable de cloner votre voix en quelques secondes

Par David Laurent
le 01/04/2024
Publié dans Apps et Logiciels

L’entreprise à l’origine de ChatGPT vient de lancer le Voice Engine, un logiciel qui permet aux utilisateurs de télécharger un échantillon de voix de 15 secondes pour générer une copie synthétique de celle-ci.

C’est désormais un fait établi : l’IA est désormais capable de tout. Elle peut composer des morceaux de musique, rédiger des textes complexes et même générer des vidéos. En effet, OpenAI a récemment présenté Sora, un puissant générateur de vidéos. Mais l’IA ne s’arrête pas là, et est désormais capable de vous faire passer pour quelqu’un d’autre. Facebook, par exemple, a lancé une nouvelle IA capable d’imiter la voix de vos amis.

Mais c’est cette fois au tour d’OpenAI, à qui on doit le célèbre ChatGPT, de se lancer dans la course. L’entreprise vient en effet de présenter Voice Engine, qui serait en développement depuis près de deux ans. Toutefois, celui-ci ne sera pas immédiatement disponible pour le grand public, OpenAI préférant jouer la carte de la prudence.

OpenAI : une technologie problématique ?

Jeff Harris, membre de l’équipe produit d’OpenAI, précise ainsi : « Nous voulons nous assurer que tout le monde est satisfait de la manière dont le modèle est déployé, que nous comprenons les dangers de cette technologie et que nous avons mis en place des mesures d’atténuation« .

En effet, l’utilisation abusive d’une telle technologie peut poser de sérieux problèmes. Les “deepfakes” qui en résultent peuvent être considérés comme de la désinformation. D’ailleurs, Tom Hanks a lui-même été victime d’un deepfake le mettant en scène dans une fausse publicité. De plus, des escrocs utilisent déjà l’IA afin d’imiter la voix de n’importe qui.

Le modèle d’IA générative qui alimente Voice Engine reste secret. Toutefois, on peut estimer que celui-ci utilise les capacités vocales et de « lecture à voix haute » de ChatGPT, le chatbot d’OpenAI alimenté par l’IA, ainsi que les voix prédéfinies disponibles dans l’API de synthèse vocale d’OpenAI.

Quoi qu’il en soit, OpenAI affirme que le Voice Engine n’est pas formé ou affiné à partir des données de l’utilisateur, ce pourquoi l’entreprise a souvent été critiquée. Jeff Harris ajoute : « Nous prenons un petit échantillon audio et du texte et nous générons un discours réaliste qui correspond au locuteur original. L’audio utilisé est supprimé une fois la requête terminée.”

Source : techcrunch