Das Robotikteam von Google DeepMind hat vor Kurzem eine Forschungsarbeit veröffentlicht, in der es zeigt, wie es den RT-2-Robotern von Google mithilfe der KI Gemini AI beibringt, zu lernen und sich an ihre Umgebung anzupassen.
Anstatt sich ausschließlich auf traditionelle Programmiermethoden zu verlassen, verwendet das Team Videos, um die Roboter zu trainieren. So können sie auf ähnliche Weise lernen wie menschliche Praktikanten. Durch die Aufzeichnung von Videotouren durch bestimmte Bereiche wie Wohnungen oder Büros können die Roboter ihre Umgebung beobachten und Informationen über sie aufnehmen.
Google Roboter navigieren mit Gemini AI
Die Funktionalität des Modells ermöglicht verbale und visuelle Ausgaben, sodass die Roboter Aufgaben auf der Grundlage ihres vorhandenen Wissens ausführen können. Zudem wird das Potenzial von Robotern aufgezeigt, auf eine Weise mit ihrer Umgebung zu interagieren, die menschlichem Verhalten ähnelt.
Bei Praxistests stand den Gemini -Robotern eine riesige Fläche von 836 Quadratmetern zur Verfügung. Und es stellte sich heraus, dass die Roboter über 50 verschiedene Benutzeranweisungen mit einer Erfolgsquote von 90 Prozent befolgen konnten.
Diese hohe Genauigkeit eröffnet zahlreiche Möglichkeiten für KI-gesteuerte Roboter in der Praxis, etwa die Unterstützung bei der Hausarbeit oder die Ausführung komplexerer Aufgaben am Arbeitsplatz.
Die Roboter sind mit dem generativen KI-Modell Gemini 1.5 Pro ausgestattet, das ein langes Kontextfenster ermöglicht. Dadurch kann die KI mehrere Aufgaben gleichzeitig ausführen und Informationen effizient verarbeiten, sodass die Roboter ihre Umgebung detailliert kennenlernen können.
Wenn ein Benutzer beispielsweise fragt, ob ein bestimmtes Getränk verfügbar ist, kann der Roboter zum Kühlschrank navigieren, dessen Inhalt visuell beurteilen und dann auf Grundlage dieser Informationen eine Antwort geben. Dieses Maß an Verständnis und Umsetzung stellt einen erheblichen Fortschritt in den Fähigkeiten von KI-gesteuerten Robotern dar.
Trotz der vielversprechenden Ergebnisse, die mit Gemini 1.5 Pro erzielt wurden, müssen noch Herausforderungen bewältigt werden. Die Roboter benötigen derzeit zwischen 10 und 30 Sekunden, um jeden Befehl zu verarbeiten, was in den meisten Fällen langsamer ist als die menschliche Ausführung.
Darüber hinaus stellen die Komplexität und Unvorhersehbarkeit realer Umgebungen eine Herausforderung für die Navigationsfähigkeiten der Roboter dar.
Obwohl die Gemini -betriebenen Roboter noch nicht für die Massenvermarktung bereit sind, sind ihre potenziellen Auswirkungen in verschiedenen Branchen vielversprechend. Durch die Integration von KI-Modellen wie Gemini 1.5 Pro in die Robotik können Branchen wie das Gesundheitswesen, die Schifffahrt und Reinigungsdienste transformiert werden.