Sora : OpenAI utiliserait YouTube pour entraîner son IA, l’entreprise mise en garde

Par David Laurent
le 08/04/2024
Publié dans Apps et Logiciels, Streaming

Neal Mohan, PDG de YouTube, vient de mettre en garde OpenAI concernant la potentielle utilisation de YouTube à des fins d’entraînement pour Sora, le nouveau générateur de vidéo de l’entreprise.

Le moins que l’on puisse dire, c’est qu’OpenAI aura eu affaire à la justice à de nombreuses reprises. L’entreprise a notamment été attaquée par le New York Times pour violations de droits d’auteur. Elon Musk, l’un des cofondateurs d’OpenAI, a également attaqué l’entreprise, affirmant que celle-ci avait trahi certains de ses engagements initiaux. Mais c’est cette fois au tour de YouTube, et son PDG, Neal Mohan, qui estime qu’OpenAI ne devrait pas utiliser sa plateforme afin d’entraîner son IA.

Tout a commencé en mars dernier lorsque Mira Murati, directrice technique d’OpenAI, a affirmé qu’elle ne savait pas si Sora, le nouveau générateur de vidéos surpuissant de l’entreprise, utilisait des données provenant de YouTube, d’Instagram ou de Facebook à des fins d’entraînement. En réaction à cette déclaration, le PDG de l’entreprise affirme que cette initiative constitue une « violation flagrante » des conditions d’utilisation de YouTube.

OpenAI : Google était-il au courant ?

Neal Mohan déclare ainsi : « Du point de vue d’un créateur, lorsqu’il télécharge son travail sur notre plateforme, il a certaines attentes. L’une de ces attentes est que les conditions de service soient respectées. Il n’est pas possible de télécharger des éléments tels que des transcriptions ou des morceaux de vidéo, ce qui constitue une violation flagrante de nos conditions d’utilisation. Ce sont les règles du jeu en termes de contenu sur notre plateforme ».

De plus, un nouveau rapport suggère qu’OpenAI aurait entraîné ses modèles d’IA sur du texte transcrit à partir de vidéos YouTube, violant une nouvelle fois les droits d’auteur des créateurs. En effet, OpenAI aurait utilisé son outil de reconnaissance vocale Whisper pour transcrire plus d’un million d’heures de vidéos YouTube, qui ont ensuite été utilisées pour entraîner GPT-4.

Le rapport suggère également que certains employés de Google étaient au courant d’une telle activité. Toutefois, ceux-ci n’auraient pas réagi, étant donné que Google lui-même ferait la même chose afin d’entraîner son IA.

Source : engadget