Google DeepMind의 로봇공학 팀은 최근 Gemini AI를 사용하여 Google 의 RT-2 로봇이 환경을 배우고 적응하도록 가르치는 방법을 보여주는 연구 논문을 발표했습니다.
전통적인 프로그래밍 방법에만 의존하는 대신 팀은 비디오를 사용하여 로봇을 훈련시켜 인간 인턴과 유사한 방식으로 학습할 수 있도록 합니다. 집이나 사무실 등 지정된 장소에 대한 비디오 투어를 녹화함으로써 로봇은 주변 환경에 대한 정보를 관찰하고 흡수할 수 있습니다.
Google 의 로봇은 Gemini AI로 탐색합니다.
이 모델의 기능은 언어적 및 시각적 출력을 허용하여 로봇이 기존 지식을 기반으로 작업을 수행할 수 있도록 하며 로봇이 인간 행동과 유사한 방식으로 환경과 상호 작용할 수 있는 가능성을 보여줍니다.
실제 테스트에서 Gemini 기반 로봇을 작동할 수 있는 9,000평방피트의 넓은 공간이 있으며, 로봇은 90%의 성공률 로 50개 이상의 다양한 사용자 지침을 성공적으로 따를 수 있는 것으로 나타났습니다.
이러한 높은 수준의 정확성은 집안일을 지원하거나 직장에서 더 복잡한 작업을 수행하는 것을 포함하여 AI 기반 로봇에 대한 수많은 실제 응용 프로그램을 열어줍니다.
로봇에는 긴 상황 창을 가능하게 하는 Gemini 1.5 Pro 생성 AI 모델이 장착되어 있습니다. 이를 통해 AI는 다중 작업을 수행하고 정보를 효율적으로 처리할 수 있어 로봇이 주변 환경에 대해 자세히 학습할 수 있습니다.
예를 들어, 사용자가 특정 음료를 마실 수 있는지 묻는 경우 로봇은 냉장고로 이동하여 내용물을 시각적으로 평가한 다음 해당 정보를 기반으로 답변을 제공할 수 있습니다. 이러한 수준의 이해와 실행은 AI 기반 로봇의 기능이 크게 발전했음을 나타냅니다.
Gemini 1.5 Pro를 통해 달성한 유망한 결과에도 불구하고 여전히 극복해야 할 과제가 있습니다. 로봇은 현재 각 명령을 처리하는 데 10~30초가 걸리며, 이는 대부분의 경우 인간이 실행하는 것보다 느립니다.
또한 실제 환경의 복잡성과 예측 불가능성으로 인해 로봇의 탐색 능력이 저하됩니다.
Gemini 기반 로봇은 아직 대량 상용화 준비가 되어 있지 않지만 다양한 산업 분야에 잠재적인 영향을 미칠 것으로 예상됩니다. Gemini 1.5 Pro와 같은 AI 모델을 로봇 공학에 통합하면 의료, 배송, 청소 업무와 같은 분야가 변화될 수 있습니다.