Wie lernen Roboter, 3D-Objekte besser zu interpretieren?

Bei allen Talenten können autonome Roboter immer noch keine Tasse Tee zubereiten. Aufgaben wie den Wasserkocher anschalten, den Kessel herunternehmen oder Milch und Zucker finden erfordern Wahrnehmungsfähigkeiten, die für die meisten Maschinen noch die Vorstellungskraft übersteigen. Zu diesen Fähigkeiten gehört auch, 3D-Objekte korrekt zu interpretieren.

Während es für Roboter vergleichsweise einfach ist, Objekte mit Kameras und anderen Sensoren visuell zu erfassen, fällt es ihnen deutlich schwerer aus einem kurzen Blick heraus zu interpretieren, was sie sehen.

Ben Burchfiel, Graduate Student an der Duke University, sagt, dass selbst die schlauesten Roboter der Welt nicht das können, was die meisten Kinder automatisch tun, aber er und seine Kollegen könnten einer Lösung näher gekommen sein. Burchfiel und sein Diplomarbeitsbetreuer George Konidaris, derzeit Assistant Professor für Informatik an der Brown University, haben ein Verfahren entwickelt, das Maschinen befähigt, 3D-Objekte in einer ergiebigeren und mehr menschlichen Form zu erschließen.

Einer Roboter, der Geschirr abräumt, muss sich beispielsweise an eine enorme Vielfalt von Schüsseln, Platten und Teller in unterschiedlichen Größen und Formen anpassen können, die ohne erkennbare Ordnung auf einer vollgestopften Oberfläche herumstehen. Menschen blicken auf ein neues Objekt und wissen intuitiv, ob seine rechte Seite oben ist, verkehrt herum oder seitlich, vollständig zu sehen oder teilweise verdeckt von anderen Objekten. Sogar wenn ein Objekten teilweise verdeckt ist, ergänzt man mental die nicht zu sehenden Teile.

Unsichtbare Teile "hinzudenken"

Der von den Wissenschaftlern entwickelte Algorithmus kann gleichzeitig ein neues Objekt und seine Orientierung erraten, ohne es zunächst aus mehreren Winkeln zu untersuchen. Er kann auch jegliche Teile „hinzudenken“, die außerhalb des Sichtfelds liegen. Ein Roboter mit diesem Verfahren müsste nicht jede Seite der Teekanne sehen, um etwa zu wissen, dass sie wahrscheinlich einen Henkel, einen Decken und eine Tülle besitzt, und ob sie richtig oder wackelig auf dem Kocher steht.  

Die Forscher sagen, dass ihr Konzept, präsentiert am 12. Juli an der 2017 Robotics: Science and Systems Conference in Cambridge, Massachusetts, weniger Fehler mache und dreimal so schnell sei, wie die besten aktuellen Methoden.

Dies sei ein wichtiger Schritt hin zu Robotern, die zusammen mit Menschen in Wohnungen und anderen Umgebungen der realen Welt arbeiten, die weniger geordnet und vorhersehbar sind, als die hochgradig gesteuerten Umgebungen eines Labors oder einer Fabrik, führt Burchfiel aus.

Datenbank mit 3D-Scans von Haushaltsgegenständen

Mit diesem Gerüst erhält der Roboter eine begrenzte Anzahl von Trainingsbeispielen, die er dann auf neue Objekte anwendet. Denn, so Burchfiel, es sei nicht praktikabel, davon auszugehen, der Roboter habe schon im Voraus ein detailliertes 3D-Modell jedes möglichen Objekts, dem er begegnen könnte. Die Wissenschaftler haben ihren Algorithmus mit einer Datenbank trainiert, die rund 4'000 vollständige 3D-Scans von Haushaltsgegenständen enthielt: eine Auswahl an Badewannen, Betten, Stühlen, Kommoden, Monitoren, Nachttischen, Sofas, Tabletts und Toiletten.

Jeder 3D-Scan wurde in zehntausende kleine Würfel oder Voxel konvertiert, aufeinander gestapelt wie Lego-Steine, damit sie sich leichter verarbeiten ließen. Der Algorithmus lernte Objektkategorien , indem er die Beispiele einer jeden Kategorie durchkämmte und herausfindet, wie sie sich unterscheiden oder wie sie gleich bleiben. Dafür kam eine Variante der probabilistischen Hauptkomponentenanalyse zum Einsatz.  

Aus dem vorhandenen Wissen verallgemeinern

Wenn der Roboter etwas neues sieht, etwa ein Etagenbett, muss er nicht seinen gesamten mentalen Katalog für einen Treffer durchgehen. Er lernt vielmehr als früheren Beispielen, welche Merkmale ein Bett auszeichnen. Aus diesem vorhandenen Wissen kann er wie ein Mensch verallgemeinern, um zu verstehen, dass zwei Objekte unterschiedlich sein mögen, aber doch Eigenschaften miteinander teilen, die sie beide als einen bestimmten Möbeltypen ausweisen.

Um das Verfahren zu testen, haben die Entwickler den Algorithmus mit 908 neuen 3D-Beispielen der genannten zehn Haushaltsgegenstände gefüttert, von oben gesehen. Von diesem Blickwinkel konnte der Algorithmus die meisten Objekte und ihre 3D-Gestalt auch mit den versteckten Bereichen in 75 Prozent der Fälle richtig erraten. Die derzeit angewandten Verfahren erreichen gerade einmal 50 Prozent.  Mit dem Verfahren ließen sich auch in verschiedene Richtungen gedrehte Objekte erkennen, was den besten konkurrierenden Verfahren nicht gelinge. Während das System einigermaßen schnell sei, der ganze Prozess nimmt rund eine Sekunde in Anspruch, sei es doch weit von der menschlichen visuellen Wahrnehmung entfernt, räumt Burchfiel ein.

Zum einen lässt sich der Algorithmus ebenso wie bereits eingeführte Verfahren leicht von Objekten täuschen, die sich aus bestimmten Perspektiven ähneln. Er sieht einen Tisch von oben und hält ihn für eine Kommode. Doch immerhin sei eine Verbesserung zu verzeichnen, sagt Burchfiel, denn Fehler passierten in etwas weniger als 25 Prozent der Fälle, während die beste Alternative bei jedem zweiten Mal falsch liege. Doch sei ein entsprechendes System noch nicht für den Haushalt einsatzbereit. Man wolle ja nicht, dass es das Kissen in den Geschirrspüler lege.

Das Team arbeitet daran, die Lösung insofern zu erweitern, als Roboter zwischen tausenden unterschiedlichen Typen von Gegenständen gleichzeitig unterscheiden könnten.  Das Neue an dem Ansatz sei, so Burchfiel, sei die Möglichkeit, nicht nur etwas zu erkennen, sondern auch die unsichtbaren Stellen eines Objekts zu ergänzen.

Die Forschungsarbeiten wurden in Teilen von The Defense Advanced Research Projects Agency, DARPA (D15AP00104) unterstützt.

Literatur: "Bayesian Eigenobjects: A Unified Framework for 3D Robot Perception," Benjamin Burchfiel and George Konidaris. RSS 2017, July 12-16, 2017, Cambridge, Massachusetts.

 

Bild: Mit 3D-Modellen von Haushaltsgegenständen aus der Vogelperspektive erkennt das neuartige Rechenverfahren die Art der Objekte und wie ihre 3D-Form aussehen sollte. Das Bild zeigt den Vorschlag des Systems in der Mitte und das tatsächliche 3D-Modell rechts. 

CREDIT: Courtesy of Ben Burchfiel

 

0
RSS Feed

Hat Ihnen der Artikel gefallen?
Abonnieren Sie doch unseren Newsletter und verpassen Sie keinen Artikel mehr.

Mit einem * gekennzeichnete Felder sind Pflichtfelder!

Neuen Kommentar schreiben

Entdecken Sie die Printmagazine des WIN-Verlags