Google DeepMinds robotikkteam har nylig publisert en forskningsartikkel som viser hvordan de lærer Google RT-2-roboter å lære og tilpasse seg miljøet ved hjelp av Gemini AI.
I stedet for å stole utelukkende på tradisjonelle programmeringsmetoder, bruker teamet videoer for å trene robotene, slik at de kan lære på en måte som ligner på menneskelige praktikanter. Ved å ta opp videoomvisninger til utpekte områder, for eksempel hjem eller kontorer, kan robotene se og absorbere informasjon om omgivelsene.
Google roboter Naviger med Gemini AI
Modellens funksjonalitet gir mulighet for verbale og visuelle utdata, som gjør at robotene kan utføre oppgaver basert på deres eksisterende kunnskap, og viser potensialet for roboter til å samhandle med miljøet på måter som ligner menneskelig atferd.
I praktiske tester er det et stort område på 9000 kvadratmeter for å betjene de Gemini -drevne robotene, og det viser seg at robotene kan følge over 50 forskjellige brukerinstruksjoner med en suksessrate på 90 prosent .
Dette høye nivået av nøyaktighet åpner opp for en rekke virkelige applikasjoner for AI-drevne roboter, inkludert å hjelpe til med husarbeid eller utføre mer komplekse oppgaver på arbeidsplassen.
Robotene er utstyrt med Gemini 1.5 Pro generativ AI-modell, som muliggjør et langt kontekstvindu. Dette lar AI-en multitaske og behandle informasjon effektivt, slik at robotene kan lære om miljøet deres i detalj.
For eksempel, hvis en bruker spør om en bestemt drikke er tilgjengelig, kan roboten navigere til kjøleskapet, visuelt vurdere innholdet og deretter gi et svar basert på denne informasjonen. Dette nivået av forståelse og utførelse representerer et betydelig fremskritt i egenskapene til AI-drevne roboter.
Til tross for de lovende resultatene oppnådd med Gemini 1.5 Pro, er det fortsatt utfordringer å overvinne. Robotene bruker for øyeblikket mellom 10 og 30 sekunder på å behandle hver instruksjon, noe som er tregere sammenlignet med menneskelig henrettelse i de fleste tilfeller.
I tillegg utgjør kompleksiteten og uforutsigbarheten i virkelige miljøer utfordringer for robotenes navigasjonsevner.
Selv om de Gemini -drevne robotene ennå ikke er klare for massekommersialisering, er deres potensielle innvirkning på tvers av ulike bransjer lovende. Ved å integrere AI-modeller som Gemini 1.5 Pro i robotikk, kan sektorer som helsevesen, skipsfart og vaktmesteroppgaver transformeres.