Il team di robotica di Google DeepMind ha recentemente pubblicato un documento di ricerca che mostra come stanno insegnando ai robot RT-2 di Google ad apprendere e adattarsi al loro ambiente utilizzando l'intelligenza artificiale Gemini .
Invece di affidarsi esclusivamente ai metodi di programmazione tradizionali, il team sta utilizzando video per addestrare i robot, consentendo loro di apprendere in modo simile agli stagisti umani. Registrando tour video di aree designate, come case o uffici, i robot possono guardare e assorbire informazioni sull'ambiente circostante.
I robot di Google navigano con l'intelligenza artificiale Gemini
La funzionalità del modello consente output verbali e visivi, consentendo ai robot di eseguire compiti in base alle loro conoscenze esistenti e mostra il potenziale dei robot di interagire con il loro ambiente in modi che assomigliano al comportamento umano.
Nei test pratici, c'è una vasta area di 9.000 piedi quadrati per far funzionare i robot alimentati da Gemini , e si scopre che i robot possono seguire con successo oltre 50 diverse istruzioni utente con una percentuale di successo del 90% .
Questo elevato livello di precisione apre numerose applicazioni nel mondo reale per i robot basati sull’intelligenza artificiale, tra cui l’assistenza nelle faccende domestiche o l’esecuzione di compiti più complessi sul posto di lavoro.
I robot sono dotati del modello di intelligenza artificiale generativa Gemini 1.5 Pro, che consente una lunga finestra di contesto. Ciò consente all’intelligenza artificiale di svolgere più attività contemporaneamente ed elaborare le informazioni in modo efficiente, consentendo ai robot di apprendere in dettaglio il loro ambiente.
Ad esempio, se un utente chiede se è disponibile una bevanda specifica, il robot può dirigersi verso il frigorifero, valutarne visivamente il contenuto e quindi fornire una risposta basata su tale informazione. Questo livello di comprensione ed esecuzione rappresenta un progresso significativo nelle capacità dei robot basati sull’intelligenza artificiale.
Nonostante i promettenti risultati ottenuti con Gemini 1.5 Pro, ci sono ancora delle sfide da superare. I robot attualmente impiegano dai 10 ai 30 secondi per elaborare ciascuna istruzione, un tempo più lento rispetto all’esecuzione umana nella maggior parte dei casi.
Inoltre, la complessità e l’imprevedibilità degli ambienti del mondo reale pongono sfide alle capacità di navigazione dei robot.
Sebbene i robot alimentati da Gemini non siano ancora pronti per la commercializzazione di massa, il loro potenziale impatto in vari settori è promettente. Integrando modelli di intelligenza artificiale come Gemini 1.5 Pro nella robotica, settori come l’assistenza sanitaria, le spedizioni e le pulizie possono essere trasformati.