Neue Methode ermöglicht Robotern intuitive Entscheidungen
Ingenieure des MIT haben eine Methode entwickelt, die es Robotern ermöglicht, intuitive und aufgabenspezifische Entscheidungen zu treffen. Mit dieser neuen Technologie, genannt Clio, können Roboter die relevanten Teile einer Umgebung identifizieren, die für ihre Aufgaben von Bedeutung sind.
Automatische Segmentierung von Szenen
Clio erlaubt es einem Roboter, eine Liste von Aufgaben, die in natürlicher Sprache beschrieben sind, zu interpretieren und darauf basierend den Detaillierungsgrad zu bestimmen, mit dem er seine Umgebung wahrnimmt. Der Roboter „merkt“ sich dabei nur die wichtigen Elemente einer Szene.
In Experimenten in einer überladenen Büroumgebung und einem fünfstöckigen Gebäude auf dem MIT-Campus wurde Clio genutzt, um eine Szene basierend auf verschiedenen Aufgaben zu segmentieren, wie zum Beispiel „Zeitschriftenständer bewegen“ oder „Erste-Hilfe-Kasten holen“.
Einsatz auf einem Roboter
Das Team testete Clio auch in Echtzeit auf einem vierbeinigen Roboter. Während dieser ein Bürogebäude erkundete, identifizierte und kartierte Clio nur die Teile der Umgebung, die für die Aufgaben des Roboters relevant waren, wie beispielsweise das Finden eines Hundespielzeugs, während unnötige Bürogegenstände ignoriert wurden.
Benennung nach der griechischen Muse
Der Name Clio stammt von der griechischen Muse der Geschichte und spiegelt die Fähigkeit wider, nur die für eine bestimmte Aufgabe wichtigen Elemente zu erkennen und zu speichern. Die Forscher sehen Anwendungsmöglichkeiten in zahlreichen Situationen, in denen Roboter ihre Umgebung schnell analysieren müssen.
„Such- und Rettungsdienste waren der Ausgangspunkt für diese Arbeit, aber Clio kann auch in Haushaltsrobotern und in der Industrie eingesetzt werden“, sagt Luca Carlone, Professor am MIT und Direktor des SPARK-Labors.
Offene Szenarien
Roboter können mittlerweile Objekte in ihrer Umgebung erkennen, jedoch geschieht dies oft in festgelegten, kontrollierten Umgebungen. In den letzten Jahren wurden Fortschritte gemacht, um Roboter in realistischeren „offenen“ Umgebungen einzusetzen, wo sie Objekte erkennen müssen, die sie nicht vorab trainiert haben.
Forscher verwenden dafür tiefe neuronale Netze, die auf Milliarden von Bildern aus dem Internet und deren zugehörigen Texten basieren. Ein Roboter kann dann in einer neuen Szene bestimmte Objekte erkennen, wie etwa einen Hund.
Der Informationsengpass
Mit Clio will das MIT-Team es Robotern ermöglichen, ihre Umgebung in einem Detaillierungsgrad zu interpretieren, der automatisch auf die jeweilige Aufgabe abgestimmt ist. So kann der Roboter beispielsweise entscheiden, ob ein ganzer Bücherstapel oder nur ein einzelnes Buch relevant ist.
Die Methode verwendet dabei einen Ansatz aus der Informationstheorie, den „Informationsengpass“, um nur die Segmente einer Szene zu speichern, die für die Aufgabe relevant sind. Überflüssige Informationen werden verworfen.
Praktische Tests und zukünftige Anwendungen
Die Forscher haben Clio in verschiedenen realen Umgebungen getestet. In einem Beispiel wendeten sie Clio in einer unaufgeräumten Wohnung an und gaben dem System Aufgaben wie „Kleiderhaufen bewegen“. Clio konnte die relevanten Segmente identifizieren und den Kleiderhaufen schnell aus der Szene extrahieren.
Clio wurde auch auf dem Roboter Spot von Boston Dynamics getestet. Der Roboter erkundete ein Bürogebäude und Clio kartierte in Echtzeit nur die für die Aufgabe relevanten Objekte, sodass der Roboter diese gezielt ansteuern konnte.
Zukunftspläne
Zukünftig wollen die Forscher Clio für komplexere Aufgaben wie „Suche nach Überlebenden“ oder „Stromversorgung wiederherstellen“ einsetzen und das System zu einem menschlicheren Verständnis von Aufgaben weiterentwickeln.