Команда робототехники Google DeepMind недавно опубликовала исследовательскую работу, показывающую, как они учат роботов Google RT-2 учиться и адаптироваться к окружающей среде с помощью Gemini AI.
Вместо того, чтобы полагаться исключительно на традиционные методы программирования, команда использует видео для обучения роботов, что позволяет им учиться так же, как люди-стажеры. Записывая видеотуры по определенным местам, таким как дома или офисы, роботы могут наблюдать и усваивать информацию об их окружении.
Роботы Google перемещаются с помощью искусственного интеллекта Gemini
Функциональность модели позволяет получать вербальные и визуальные результаты, позволяя роботам выполнять задачи на основе имеющихся у них знаний, и демонстрирует потенциал роботов взаимодействовать с окружающей средой способами, напоминающими человеческое поведение.
В практических испытаниях роботам с приводом Gemini предоставляется обширная территория площадью 9000 квадратных футов, и оказывается, что роботы могут успешно выполнять более 50 различных инструкций пользователя с 90-процентной вероятностью успеха .
Такой высокий уровень точности открывает множество реальных приложений для роботов с искусственным интеллектом, включая помощь по дому или выполнение более сложных задач на рабочем месте.
Роботы оснащены генеративной моделью искусственного интеллекта Gemini 1.5 Pro, которая обеспечивает длинное контекстное окно. Это позволяет ИИ эффективно выполнять несколько задач и обрабатывать информацию, позволяя роботам подробно изучать окружающую среду.
Например, если пользователь спрашивает, доступен ли конкретный напиток, робот может перейти к холодильнику, визуально оценить его содержимое, а затем дать ответ на основе этой информации. Этот уровень понимания и исполнения представляет собой значительный прогресс в возможностях роботов с искусственным интеллектом.
Несмотря на многообещающие результаты, достигнутые с помощью Gemini 1.5 Pro, еще предстоит преодолеть проблемы. В настоящее время роботам требуется от 10 до 30 секунд для обработки каждой инструкции, что в большинстве случаев медленнее по сравнению с выполнением человеком.
Кроме того, сложность и непредсказуемость реальной среды создают проблемы для навигационных способностей роботов.
Хотя роботы с приводом Gemini еще не готовы к массовой коммерциализации, их потенциальное влияние в различных отраслях является многообещающим. Интегрируя модели искусственного интеллекта, такие как Gemini 1.5 Pro, в робототехнику, можно преобразовать такие отрасли, как здравоохранение, судоходство и уборку.