Wie kann eine Maschine lernen, sich in unserer Lebenswelt visuell zu orientieren? Mit dieser Frage setzen sich die Wissenschaftler am Deutschen Forschungsinstitut für Künstliche Intelligenz (DFKI) aktuell auseinander – und entwickeln Lösungen. Auf der diesjährigen Conference on Computer Vision and Pattern Recognition (CVPR) in Seattle, USA, stellen die Forschenden aus der Abteilung Augmented Vision ihre neusten technischen Entwicklungen vor. So auch MiKASA. Der Multi-Key-Anchor Scene-Aware Transformer for 3D Visual Grounding (MiKASA) ermöglicht es, komplexe räumliche Abhängigkeiten und Merkmale von Objekten im dreidimensionalen Raum zu identifizieren und semantisch zu begreifen.
MiKASA-Projekt will Maschinen das Sehen beibringen
Was für Menschen intuitiv mit dem Spracherwerb einhergeht, ist die Ermittlung von Bedeutung, unabhängig von der tatsächlichen sprachlichen Äußerung. Das bedeutet, wir können auf einer Vielzahl von Wegen eine Intention oder Referenz nachvollziehen und diese mit einem Objekt in unserer Lebenswelt in Verbindung bringen.
Maschinen haben diese Fähigkeit bislang nicht – oder nur in unausgereifter Form. Das soll sich durch MiKASA, eine von DFKI-Forschen den entwickelte Technologie, in Zukunft ändern. Der Multi-Key-Anchor Scene-Aware Transformer for 3D Visual Grounding (MiKASA) ermöglicht es, komplexe räumliche Abhängigkeiten und Merkmale von Objekten im dreidimensionalen Raum zu identifizieren und semantisch zu begreifen.
Wie können Maschinen Objekte zielsicher erkennen?
„Wenn wir beispielsweise ein großes, würfelförmiges Objekt in einer Küche wahrnehmen, können wir ganz natürlich annehmen, dass es sich dabei womöglich um einen Geschirrspüler handelt. Erkennen wir eine vergleichbare Form in einem Badezimmer, ist die Annahme, dass es sich um eine Waschmaschine handelt, plausibler“, erklärt Projektleier Alain Pagani vom Forschungsbereich Augmented Vision.
Bedeutung ist kontextabhängig. Dieser Zusammenhang ist für ein nuanciertes Verständnis unserer Umgebung unerlässlich. Durch einen „szenenbewussten Objekt-Erkenner“ können nun auch Maschinen Rückschlüsse aus der Umgebung eines Referenzobjekts ziehen – und das Objekt so zielsicherer erkennen und korrekt definieren. Eine weitere Herausforderung für Programme ist es, relative räumliche Abhängigkeiten zu verstehen. „Der Stuhl vor dem blauen Monitor“ ist schließlich mit einer anderen Perspektive „der Stuhl hinter dem Monitor“.
Damit der Maschine klar wird, dass es sich bei beiden Stühlen tatsächlich um ein und dasselbe Objekt handelt, arbeitet MiKASA mit einem sogenannten „multi-key-anchor concept“. Das übermittelt die Koordinaten von Ankerpunkten im Blickfeld in Relation zu dem Zielobjekt und bewertet die Wichtigkeit von nahen Objekten anhand von Textbeschreibungen.
So können semantische Rückbezüge helfen, das Objekt zu lokalisieren. Ein Stuhl ist typischerweise in Richtung eines Tisches platziert oder steht an einer Wand. Die Anwesenheit eines Tisches oder einer Wand definiert also indirekt die Ausrichtung des Stuhls. Durch die Verknüpfung von Sprachmodellen, gelernter Semantik und der Wiedererkennung der Objekte im realen dreidimensionalen Raum erzielt MiKASA eine Genauigkeit von bis zu 78,6 % (Sr3D Challenge). Damit konnte die Trefferquote zur Objekterfassung um rund 10 % im Vergleich zu der besten bisherigen Technologie in diesem Bereich gesteigert werden!
Sensorik setzt Daten zu einem Gesamtbild zusammen
Bevor ein Programm damit beginnen kann, seine Umgebung zu verstehen, muss es sie zunächst wahrnehmen können. Dafür liefern unzählige Sensoren ihre Daten und diese werden dann zu einem Gesamteindruck zusammengeführt. Den nutzt dann beispielsweise ein Roboter, um sich im Raum zu orientieren.
Das Problem: Wie auch beim menschlichen Auge gibt es Überlappungen der visuellen Informationen. Um das zu begreifen und aus der Vielzahl von Daten ein stimmiges Bild zu generieren, wurde am DFKI das „SG-PGM (Partial Graph Matching Network with Semantic Geometric Fusion for 3D Scene Graph Alignment and its Downstream Tasks)“ entwickelt. Die Ausrichtung zwischen sogenannten dreidimensionalen Szenenvisualisierungen (3D scene graphs), bietet die Grundlage für eine Vielzahl von Anwendungen. So unterstützt sie beispielsweise bei der „Punktwolkenregistrierung“ (point cloud registraton) – und hilft Robotern bei ihrer Navigation.
Damit dies auch in dynamischen Umgebungen mit etwaigen Störquellen gelingt, verknüpft SG-PGM die Visualisierungen mit einem neuronalen Netzwerk. „Das Programm wiederverwertet dabei die geometrischen Elemente, welche durch die point cloud registration erlernt wurden und assoziiert die gruppierten geometrischen Punktdaten mit den semantischen Merkmalen auf Knotenebene“, so Alain Pagani vom DFKI.
Dank MiKASA können sich Roboter in dreidimensionalen Räumen besser zurechtfinden
Im Grunde genommen wird also einer bestimmten Gruppierung von Punkten eine Semantik zugewiesen (Beispielsweise die Bedeutung: „blauer Stuhl vor dem Monitor“). Dieselbe Gruppierung kann dann in einem anderen Graph wiedererkannt werden und somit sie Szene lediglich um die nicht wiederkehrenden Elemente erweitert werden.
SG-PGM ist somit in der Lage, mit nie dagewesener Genauigkeit etwaige Überlappungen in einer Szene zu identifizieren und somit mittels einer Vielzahl von Sensoren ein möglichst exaktes Gesamtbild zu ermitteln. Das heißt: Roboter können sich im dreidimensionalen Raum besser zurechtfinden und Objekte präzise lokalisieren. Diesen technologischen Fortschritt haben die Veranstalter der CVPR mit einer Platzierung honoriert.
Mit insgesamt sechs unterschiedlichen Abhandlungen will das Team von Didier Stricker, Forschungsbereichsleiter von Augmented Vision am DFKI, unter anderem Technologien präsentiert, welche Objekte im dreidimensionalen Raum anhand variabler sprachlicher Beschreibungen identifizieren und die Umgebung ganzheitlich mit Sensoren erfassen und abbilden können.
Weitere Informationen gibt es unter www.dfki.de.