Google intègre l’IA Gemini dans des robots, le résultat est bluffant

Par David Laurent
le 12/07/2024
Publié dans Apps et Logiciels, Objets connectés

Une équipe de chercheurs de Google s’est adonnée à une impressionnante expérience. Ces derniers ont « boosté » des robots d’assistance avec l’IA de l’entreprise, Gemini, afin d’améliorer leurs performances.

Si Amazon a récemment retiré du marché son robot Astro For Business, bien d’autres engins de ce type sont disponibles. Elon Musk, par exemple, veut faire travailler des « milliers » de robots dans ses usines Tesla. Mais ce type d’appareil pourrait grandement gagner en performance grâce à l’ajout de l’intelligence artificielle, rendue mondialement célèbre grâce au ChatGPT d’OpenAI. Google vient donc de tenter l’expérience via sa propre IA, Gemini, pour un résultat impressionnant.

Le moins que l’on puisse dire, c’est que les technologies robotiques ne cessent d’évoluer. En ce qui concerne la navigation, par exemple, la plupart des robots nécessitaient d’établir une cartographie complète de l’environnement afin que l’engin puisse se déplacer d’un point à un autre. Mais de récents progrès, dont la technologie de Language Vision, permettent aux utilisateurs de diriger les robots à l’aide d’une simple commande vocale, telle que « va dans mon bureau » ou encore « sors de la pièce ».

Gemini : des résultats impressionnants

Mais Google va encore plus loin, en y ajoutant des capacités dites « multimodales ». En d’autres termes, le robot est maintenant capable d’accepter des instructions en langage naturel et en images en même temps. Il devient par exemple possible de lui montrer la photo d’un objet, puis de lui demander de localiser ce dernier. Grâce à Gemini 1.5 Pro, le robot pourra ensuite guider l’utilisateur vers la zone où se trouve l’objet en question.

Google a ainsi partagé une courte vidéo montrant les capacités de son robot alimenté par Gemini. Un chercheur commence par activer l’engin en annonçant « Ok robot » – ce qui rappelle le « Ok Google » de l’assistant vocal Android – avant de demander à être conduit dans un endroit où « il peut dessiner ». Quelques instants plus tard, le robot se lance à vive allure dans les locaux de DeepMind, propriété de Google, à la recherche d’un endroit propice au dessin.

Selon les chercheurs, le robot alimenté par Gemini obtiendrait d’excellents résultats. Ces derniers affirment ainsi que l’engin obtient « des taux de réussite de bout en bout de 86 % et 90 % pour des tâches de navigation auparavant infaisables impliquant un raisonnement complexe et des instructions multimodales de l’utilisateur dans un vaste environnement réel ».

Source : digitaltrends