L’intelligence artificielle serait incapable de lire l’heure correctement, voici pourquoi

De nos jours, l’IA est capable de presque tout, de la rédaction au codage, en passant par la génération de clips vidéo. Et pourtant, une nouvelle étude pointe du doigt les difficultés rencontrées par l’IA lorsqu’il s’agit de lire l’heure.

Si l’un des réalisateurs des films Marvel estime que l’IA sera bientôt capable de générer des longs-métrages sur mesure, celle-ci a encore des progrès à faire. On a par exemple pu voir ChatGPT Search, le moteur de recherche d’OpenAI, commettre de lourdes erreurs. Mais il s’agit cette fois d’un constat particulièrement étonnant. En effet, des chercheurs ont étudié de nombreuses IA, dont le GPT d’OpenAI ou encore Gemini de Google, en leur demandant de lire l’heure.

Et, étonnamment, lire l’heure serait une tâche particulièrement difficile pour l’IA. Les chercheurs ont ainsi montré des images d’horloges aux IA concernées, leur demandant simplement l’heure affichée. Malheureusement, les IA n’ont donné la bonne réponse qu’une fois sur quatre en moyenne.

L’IA peine à réaliser des tâches basiques

« La plupart des gens savent lire l’heure et utiliser des calendriers dès leur plus jeune âge. Nos résultats mettent en évidence une lacune importante dans la capacité de l’IA à réaliser ce qui sont des compétences assez basiques pour les gens », écrit Rohit Saxena, co-auteur de l’étude.

« La lecture d’une horloge analogique et la compréhension d’un calendrier impliquent des étapes cognitives complexes : elles exigent une reconnaissance visuelle fine (par exemple, la position des aiguilles de l’horloge, la disposition des cases des jours) et un raisonnement numérique non trivial (par exemple, le calcul des décalages de jours). »

Les chercheurs ont pourtant utilisé les modèles d’IA les plus performants au monde, tels que les modèles GPT-4o et GPT-4o1 d’OpenAI, Gemini 2.0 de Google, ou encore le Llama 3.2-11B-Vision-Instruct de Meta.

« La capacité à interpréter et à raisonner sur le temps à partir d’entrées visuelles est essentielle pour de nombreuses applications du monde réel, allant de la programmation d’événements aux systèmes autonomes », précisent les chercheurs. « Malgré les progrès réalisés dans le domaine des grands modèles de langage multimodal (MLLM), la plupart des travaux se sont concentrés sur la détection d’objets, le sous-titrage d’images ou la compréhension de scènes, laissant l’inférence temporelle sous-explorée. »

Source : gizmodo

L’IA peine à réaliser des tâches basiques

La rédaction vous conseille :