Google DeepMind のロボット工学チームは最近、 Gemini AI を使用してGoogleの RT-2 ロボットに学習と環境への適応を教えている方法を示す研究論文を発表しました。
従来のプログラミング方法だけに頼るのではなく、チームはビデオを使ってロボットを訓練し、人間のインターンシップと同様の方法でロボットが学習できるようにしています。家やオフィスなどの指定されたエリアのビデオツアーを録画することで、ロボットは周囲の情報を観察し、吸収することができます。
GoogleのロボットはGemini AI でナビゲート
このモデルの機能により、言語と視覚による出力が可能になり、ロボットは既存の知識に基づいてタスクを実行できるようになり、ロボットが人間の行動に似た方法で環境と対話する可能性を示しています。
実際のテストでは、 Gemini搭載ロボットを操作するための広大な9,000平方フィートのエリアがあり、ロボットは90パーセントの成功率で50を超えるさまざまなユーザー指示に正常に従うことができることが判明しました。
この高い精度により、家事の手伝いや職場でのより複雑な作業の実行など、AI 搭載ロボットのさまざまな実際の用途が開かれます。
ロボットには、長いコンテキスト ウィンドウを可能にするGemini 1.5 Pro 生成 AI モデルが搭載されています。これにより、AI はマルチタスクを実行し、情報を効率的に処理できるため、ロボットは環境を詳細に学習できます。
たとえば、ユーザーが特定の飲み物があるかどうかを尋ねると、ロボットは冷蔵庫まで移動し、中身を視覚的に判断し、その情報に基づいて答えることができます。このレベルの理解と実行は、AI 搭載ロボットの機能の大きな進歩を表しています。
Gemini 1.5 Pro で達成された有望な結果にもかかわらず、克服すべき課題はまだあります。ロボットは現在、各指示を処理するのに 10 ~ 30 秒かかっており、ほとんどの場合、人間が実行するよりも遅いです。
さらに、現実世界の環境の複雑さと予測不可能性により、ロボットのナビゲーション能力に課題が生じます。
Gemini搭載ロボットはまだ大量商品化のGeminiができていませんが、さまざまな業界に及ぼす潜在的な影響は有望です。Gemini 1.5 Pro などの AI モデルをロボット工学に統合することで、医療、配送、清掃業務などの分野を変革することができます。