L'équipe de robotique de Google DeepMind a récemment publié un document de recherche montrant comment elle apprend aux robots RT-2 de Google à apprendre et à s'adapter à leur environnement à l'aide Gemini AI.
Plutôt que de s’appuyer uniquement sur des méthodes de programmation traditionnelles, l’équipe utilise des vidéos pour former les robots, leur permettant ainsi d’apprendre de la même manière que les stagiaires humains. En enregistrant des visites vidéo de zones désignées, telles que des maisons ou des bureaux, les robots peuvent observer et absorber des informations sur leur environnement.
Les robots de Google naviguent avec Gemini AI
La fonctionnalité du modèle permet des sorties verbales et visuelles, permettant aux robots d'effectuer des tâches basées sur leurs connaissances existantes, et met en valeur le potentiel des robots à interagir avec leur environnement d'une manière qui ressemble au comportement humain.
Lors des tests pratiques, il existe une vaste zone de 9 000 pieds carrés pour faire fonctionner les robots propulsés par Gemini , et il s'avère que les robots peuvent suivre avec succès plus de 50 instructions utilisateur différentes avec un taux de réussite de 90 % .
Ce haut niveau de précision ouvre la voie à de nombreuses applications concrètes pour les robots alimentés par l'IA, notamment l'aide aux tâches ménagères ou l'exécution de tâches plus complexes sur le lieu de travail.
Les robots sont équipés du modèle d'IA générative Gemini 1.5 Pro, qui permet une longue fenêtre contextuelle. Cela permet à l’IA d’effectuer plusieurs tâches et de traiter efficacement les informations, permettant ainsi aux robots de connaître leur environnement en détail.
Par exemple, si un utilisateur demande si une boisson spécifique est disponible, le robot peut accéder au réfrigérateur, évaluer visuellement son contenu, puis fournir une réponse basée sur ces informations. Ce niveau de compréhension et d’exécution représente une avancée significative dans les capacités des robots alimentés par l’IA.
Malgré les résultats prometteurs obtenus avec Gemini 1.5 Pro, il reste encore des défis à relever. Les robots mettent actuellement entre 10 et 30 secondes pour traiter chaque instruction, ce qui est plus lent que l'exécution humaine dans la plupart des cas.
De plus, la complexité et l’imprévisibilité des environnements réels posent des défis aux capacités de navigation des robots.
Bien que les robots propulsés par Gemini ne soient pas encore prêts pour une commercialisation de masse, leur impact potentiel dans diverses industries est prometteur. En intégrant des modèles d'IA tels que Gemini 1.5 Pro dans la robotique, des secteurs tels que la santé, le transport maritime et les tâches de conciergerie peuvent être transformés.