Het robotica-team van Google DeepMind heeft onlangs een onderzoekspaper gepubliceerd waarin wordt aangetoond hoe zij de RT-2-robots van Google leren om te leren en zich aan te passen aan hun omgeving met behulp van Gemini AI.
In plaats van uitsluitend te vertrouwen op traditionele programmeermethoden, gebruikt het team video's om de robots te trainen, waardoor ze kunnen leren op een manier die vergelijkbaar is met menselijke stagiaires. Door videorondleidingen door aangewezen gebieden, zoals huizen of kantoren, op te nemen, kunnen de robots informatie over hun omgeving bekijken en absorberen.
De robots van Google navigeren met Gemini AI
De functionaliteit van het model maakt verbale en visuele output mogelijk, waardoor de robots taken kunnen uitvoeren op basis van hun bestaande kennis, en toont het potentieel van robots om met hun omgeving te communiceren op manieren die op menselijk gedrag lijken.
Uit praktische tests blijkt dat er een enorm gebied van 900 vierkante meter is om de door Gemini aangedreven robots te bedienen, en het blijkt dat de robots met succes meer dan 50 verschillende gebruikersinstructies kunnen volgen met een slagingspercentage van 90 procent .
Dit hoge nauwkeurigheidsniveau opent tal van toepassingen in de echte wereld voor AI-aangedreven robots, waaronder het assisteren bij huishoudelijke taken of het uitvoeren van complexere taken op de werkplek.
De robots zijn uitgerust met het generatieve AI-model Gemini 1.5 Pro, dat een lang contextvenster mogelijk maakt. Hierdoor kan de AI multitasken en informatie efficiënt verwerken, waardoor de robots in detail over hun omgeving kunnen leren.
Als een gebruiker bijvoorbeeld vraagt of een bepaald drankje beschikbaar is, kan de robot naar de koelkast navigeren, de inhoud visueel beoordelen en op basis van die informatie een antwoord geven. Dit niveau van begrip en uitvoering vertegenwoordigt een aanzienlijke vooruitgang in de mogelijkheden van AI-aangedreven robots.
Ondanks de veelbelovende resultaten die zijn behaald met Gemini 1.5 Pro, zijn er nog steeds uitdagingen die moeten worden overwonnen. De robots hebben momenteel tussen de 10 en 30 seconden nodig om elke instructie te verwerken, wat in de meeste gevallen langzamer is dan de menselijke uitvoering.
Bovendien vormen de complexiteit en onvoorspelbaarheid van echte omgevingen uitdagingen voor de navigatiemogelijkheden van de robots.
Hoewel de Gemini aangedreven robots nog niet klaar zijn voor massale commercialisering, is hun potentiële impact in verschillende industrieën veelbelovend. Door AI-modellen zoals Gemini 1.5 Pro te integreren in robotica kunnen sectoren als de gezondheidszorg, de scheepvaart en schoonmaakwerkzaamheden worden getransformeerd.