Nvidia aurait téléchargé des milliers d’heures de vidéos Netflix et YouTube pour entraîner son IA

Le célèbre fabricant de hardware est une nouvelle fois dans la tourmente. En effet, selon un nouveau rapport, Nvidia aurait largement puisé dans divers sites de streaming, tels que YouTube ou Netflix, afin d’entraîner son IA.

Face au succès mondial rencontré par le ChatGPT d’OpenAI, Nvidia n’aura pas attendu longtemps avant de se lancer dans la course à l’IA. Le fabricant a notamment dévoilé des puces surpuissantes capables de former des IA telles que ChatGPT, et a présenté un nouveau système de PNJ alimentés par l’IA. Mais, comme toute bonne IA, le modèle développé par Nvidia a besoin d’une quantité conséquente de données afin de s’entraîner.

Crédit photo : Unsplash

Ainsi, selon un rapport dévoilé par 404 Media, d’anciens employés de Nvidia auraient déclaré qu’il leur avait été demandé de récupérer du contenu vidéo sur Netflix, YouTube et d’autres sources en ligne. Ces données auraient servi à entraîner les différents produits d’IA de l’entreprise, dont le générateur de monde 3D Omniverse de Nvidia.

Nvidia estime être dans son droit

Les employés concernés ont alors émis certains doutes quant à la légalité du projet, baptisé Cosmos en interne. Ce dernier viserait à construire un modèle de base, semblable à Gemini 1.5, GPT-4 ou Llama 3.1, « qui encapsule la simulation du transport de la lumière, la physique et l’intelligence en un seul endroit pour débloquer diverses applications en aval essentielles pour Nvidia ».

Afin de mener à bien le projet, Nvidia aurait alors utilisé un téléchargeur de vidéos open-source et recouru à l’apprentissage automatique pour sauter d’une adresse IP à l’autre, évitant ainsi les tentatives de blocage de YouTube. L’entreprise aurait ainsi envisagé de télécharger chaque jour 80 années de vidéos complètes et de clips.

Suite à cette polémique, Nvidia a tenu à défendre son initiative. L’entreprise déclare ainsi : « Nous respectons les droits de tous les créateurs de contenu et nous sommes convaincus que nos modèles et nos efforts de recherche sont pleinement conformes à la lettre et à l’esprit de la loi sur les droits d’auteur […] La loi sur le droit d’auteur protège les expressions particulières, mais pas les faits, les idées, les données ou les informations. »

Source : digitaltrends