Zespół robotyki Google DeepMind opublikował niedawno artykuł badawczy pokazujący, w jaki sposób uczy roboty Google RT-2 uczenia się i dostosowywania do środowiska za pomocą Gemini AI.
Zamiast polegać wyłącznie na tradycyjnych metodach programowania, zespół wykorzystuje filmy do szkolenia robotów, dzięki czemu mogą uczyć się w sposób podobny do stażystów. Nagrywając wideoprzejażdżki po wyznaczonych obszarach, takich jak domy czy biura, roboty mogą oglądać i przyswajać informacje o swoim otoczeniu.
Roboty Google nawigują za pomocą Gemini AI
Funkcjonalność modelu umożliwia komunikację werbalną i wizualną, umożliwiając robotom wykonywanie zadań w oparciu o ich istniejącą wiedzę, a także ukazuje potencjał robotów do interakcji z otoczeniem w sposób przypominający ludzkie zachowanie.
Testy praktyczne wykazały, że roboty napędzane napędem Gemini mają do dyspozycji ogromny obszar o powierzchni 9000 stóp kwadratowych i okazuje się, że roboty te mogą z powodzeniem wykonywać ponad 50 różnych instrukcji użytkownika z 90% skutecznością .
Ten wysoki poziom dokładności otwiera wiele rzeczywistych zastosowań robotów napędzanych sztuczną inteligencją, w tym pomoc w pracach domowych lub wykonywanie bardziej złożonych zadań w miejscu pracy.
Roboty wyposażone są w generatywny model AI Gemini 1.5 Pro, który umożliwia długie okno kontekstowe. Dzięki temu sztuczna inteligencja może wykonywać wiele zadań jednocześnie i efektywnie przetwarzać informacje, umożliwiając robotom szczegółowe poznanie otoczenia.
Na przykład, jeśli użytkownik zapyta, czy dostępny jest konkretny napój, robot może nawigować do lodówki, wizualnie ocenić jej zawartość, a następnie udzielić odpowiedzi na podstawie tych informacji. Ten poziom zrozumienia i wykonania stanowi znaczny postęp w możliwościach robotów napędzanych sztuczną inteligencją.
Pomimo obiecujących wyników osiągniętych dzięki Gemini 1.5 Pro, nadal istnieją wyzwania do pokonania. Przetworzenie każdej instrukcji przez roboty zajmuje obecnie od 10 do 30 sekund, co w większości przypadków jest wolniejsze w porównaniu z wykonywaniem przez człowieka.
Ponadto złożoność i nieprzewidywalność rzeczywistych środowisk stwarza wyzwania dla zdolności nawigacyjnych robotów.
Chociaż roboty zasilane przez Gemini nie są jeszcze gotowe do masowej komercjalizacji, ich potencjalny wpływ na różne gałęzie przemysłu jest obiecujący. Integracja modeli sztucznej inteligencji, takich jak Gemini 1.5 Pro z robotyką, może spowodować transformację w sektorach takich jak opieka zdrowotna, żegluga i sprzątanie.