Google DeepMind 的机器人团队最近发表了一篇研究论文,展示了他们如何使用Gemini AI 教Google的 RT-2 机器人学习和适应环境。
该团队没有仅仅依赖传统的编程方法,而是使用视频来训练机器人,让它们以类似于人类实习生的方式学习。通过录制指定区域(如家庭或办公室)的视频巡视,机器人可以观察和吸收有关周围环境的信息。
Google机器人利用Gemini AI 导航
该模型的功能允许口头和视觉输出,使机器人能够根据现有知识执行任务,并展示机器人以类似人类行为的方式与环境互动的潜力。
在实际测试中, Gemini驱动的机器人可以在 9,000 平方英尺的广阔区域内进行操作,事实证明,机器人可以成功执行 50 多种不同的用户指令, 成功率高达 90% 。
这种高精度为人工智能机器人开辟了众多现实世界的应用,包括协助做家务或在工作场所执行更复杂的任务。
机器人配备了Gemini 1.5 Pro 生成式 AI 模型,可实现较长的上下文窗口。这使 AI 能够执行多项任务并高效处理信息,从而使机器人能够详细了解其周围环境。
例如,如果用户询问是否有某种饮料,机器人可以导航到冰箱,直观地评估里面的东西,然后根据这些信息给出答案。这种理解和执行水平代表了人工智能机器人能力的重大进步。
尽管Gemini 1.5 Pro 取得了令人鼓舞的成果,但仍有挑战需要克服。机器人目前需要 10 到 30 秒来处理每条指令,在大多数情况下,这比人类的执行速度要慢。
此外,现实环境的复杂性和不可预测性对机器人的导航能力提出了挑战。
尽管Gemini驱动的机器人尚未准备好大规模商业化,但它们对各个行业的潜在影响是令人鼓舞的。将Gemini 1.5 Pro 等 AI 模型集成到机器人技术中,医疗保健、航运和清洁工作等领域将发生翻天覆地的变化。