Intelligence artificielle : plus de la moitié du contenu présent sur le web serait généré par l’IA

Le moins que l’on puisse dire, c’est que l’IA est en train de s’immiscer partout dans notre quotidien. C’est d’ailleurs ce qu’affirme une nouvelle étude, qui suggère que plus de 57 % du contenu présent sur le net serait directement ou indirectement issu de l’IA.

Si une récente étude suggère que les entreprises utilisant l’IA dégoûteraient les utilisateurs, cela n’empêche pas la plupart des géants du numérique d’investir massivement dans cette technologie. De nombreux sites, tels que Buzzfeed ou encore CNET, utilisent l’IA afin de rédiger des articles, à tel point que Google News serait envahi de contenus générés par l’IA. Et, quand on sait que l’ensemble des modèles d’IA puisent justement dans le web pour s’entraîner, ce dernier serait donc majoritairement constitué de contenus générés par l’IA.

C’est en tout cas ce qu’affirme une nouvelle étude publiée par des chercheurs d’Amazon Web Services (AWS). Cette dernière indique que 57 % du contenu sur Internet est soit généré par l’IA, soit traduit à l’aide d’un algorithme d’IA, un chiffre aussi surprenant qu’inquiétant.

L’IA s’entraîne en utilisant du contenu… généré par l’IA

Toutefois, les résultats de cette étude sont à relativiser. En effet, ces derniers prennent en compte les contenus traduits par l’IA, ce qui fait naturellement gonfler les chiffres. L’étude précise ainsi : « Les traductions parallèles à plusieurs voies générées par des machines ne dominent pas seulement la quantité totale de contenu traduit sur le web dans les langues à faibles ressources où la traduction automatique est disponible ; elles constituent également une grande partie du contenu total du web dans ces langues ».

Quoi qu’il en soit, cette forte augmentation des contenus d’IA pourrait également faire baisser sensiblement la qualité de l’ensemble du contenu disponible sur la toile. En effet, il est important de rappeler que des IA telles que ChatGPT, Gemini et Claude s’appuient sur des quantités massives de données d’entraînement obtenues en fouillant le web public.

Et, quand on sait que ce dernier est envahi de contenus d’IA, le fait que l’IA s’entraîne elle-même en utilisant des informations générées par l’IA pourrait faire s’effondrer la qualité de ces modèles de langage dans un futur proche…

Source : digitaltrends