A equipe de robótica do Google DeepMind publicou recentemente um artigo de pesquisa mostrando como eles estão ensinando os robôs RT-2 do Google a aprender e se adaptar ao seu ambiente usando Gemini AI.
Em vez de confiar apenas nos métodos tradicionais de programação, a equipe está usando vídeos para treinar os robôs, permitindo-lhes aprender de forma semelhante aos estagiários humanos. Ao gravar tours em vídeo de áreas designadas, como casas ou escritórios, os robôs podem observar e absorver informações sobre o ambiente ao seu redor.
Os robôs do Google navegam com Gemini AI
A funcionalidade do modelo permite resultados verbais e visuais, permitindo que os robôs executem tarefas com base no conhecimento existente e mostra o potencial dos robôs interagirem com seu ambiente de maneiras que se assemelham ao comportamento humano.
Em testes práticos, há uma vasta área de 9.000 pés quadrados para operar os robôs movidos Gemini , e descobriu-se que os robôs podem seguir com sucesso mais de 50 instruções de usuário diferentes, com uma taxa de sucesso de 90% .
Este alto nível de precisão abre inúmeras aplicações do mundo real para robôs alimentados por IA, incluindo assistência nas tarefas domésticas ou execução de tarefas mais complexas no local de trabalho.
Os robôs estão equipados com o modelo de IA generativa Gemini 1.5 Pro, que permite uma longa janela de contexto. Isso permite que a IA realize múltiplas tarefas e processe informações com eficiência, permitindo que os robôs aprendam detalhadamente sobre seu ambiente.
Por exemplo, se um utilizador perguntar se uma bebida específica está disponível, o robô pode navegar até ao frigorífico, avaliar visualmente o seu conteúdo e, em seguida, fornecer uma resposta com base nessa informação. Este nível de compreensão e execução representa um avanço significativo nas capacidades dos robôs alimentados por IA.
Apesar dos resultados promissores alcançados com Gemini 1.5 Pro, ainda existem desafios a superar. Atualmente, os robôs levam de 10 a 30 segundos para processar cada instrução, o que é mais lento em comparação com a execução humana na maioria dos casos.
Além disso, as complexidades e a imprevisibilidade dos ambientes do mundo real representam desafios para as capacidades de navegação dos robôs.
Embora os robôs movidos pela Gemini ainda não estejam prontos para comercialização em massa, o seu impacto potencial em vários setores é promissor. Integrando modelos de IA como Gemini 1.5 Pro na robótica, setores como saúde, transporte marítimo e tarefas de limpeza podem ser transformados.