3D scene understanding on point clouds

Engelmann, Francis; Tang, Siyu; Leibe, Bastian

doi:40590

3D scene understanding on point clouds = 3D Szenenverständnis auf Punktwolken

Engelmann, Francis^RWTH*

2021

Verantwortlichkeitsangabevorgelegt von Master of Science Francis Engelmann

ImpressumAachen : RWTH Aachen University 2021

Umfang1 Online-Ressource : Illustrationen, Diagramme

Dissertation, RWTH Aachen University, 2021

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Leibe, Bastian (Thesis advisor)^RWTH* ; Tang, Siyu (Thesis advisor)

Tag der mündlichen Prüfung/Habilitation
2021-08-16

Online
DOI: 10.18154/RWTH-2021-07968
URL: https://publications.rwth-aachen.de/record/824967/files/824967.pdf

Einrichtungen

Inhaltliche Beschreibung (Schlagwörter)
3d scene understanding (frei) ; computer vision (frei) ; deep learning (frei) ; instance segmentation (frei) ; reconstruction (frei) ; semantic segmentation (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Diese Arbeit leistet einen Beitrag zum aufstrebenden Gebiet des Verständnisses von 3D Szenen. Ausgehend von einer 3D Szenendarstellung, adressieren wir Themen wie 3D Objekterkennung, Formrekonstruktion und Posen Schätzung, sowie 3D Semantische- und Instanz-Segmentierung. Die jüngste Verfügbarkeit von preiswerten Tiefensensoren hat 3D-Daten weithin zugänglich gemacht. Gleichzeitig erfordern aktuelle Bestrebungen in den Bereichen Robotik, Augmented-Reality und selbstfahrende Autos effiziente und zuverlässige Algorithmen zum Verständnis verschiedener 3D-Szenendarstellungen, wie Polygonnetze, Punktwolken oder anderen volumetrische Darstellungen. Während 3D-Daten inhärente Einschränkungen von projizierten 2D-Ansichten überwinden, wie z.B. Verdeckungen, Skalenambiguität und fehlende Geometrie, führen sie auch zu neue Herausforderungen, einschließlich nicht dichte und ungleichmäßige Abtastung. Daher lassen sich bestehende Methoden für die 2D Bildverarbeitung nicht gut auf 3D-Datenstrukturen verallgemeinern. In dieser Arbeit stellen wir neuartige Ansätze vor, die speziell auf das Verstehen von 3D Szenen ausgerichtet sind. Die Hauptbeiträge sind in drei Teile gegliedert: Der Kernbeitrag des ersten Teils ist eine probabilistische Formulierung, welche die a-priori-Wahrscheinlichkeitsverteilungen von 3D Formen und Bewegungen sowie Stereotiefenmessungen in ein globales Optimierungsproblem integriert. Der resultierende Ansatz kann gemeinsam die 3D Form, Pose und Bewegung mehrerer Fahrzeuge in städtischen Straßenszenen schätzen. Der zweite Teil beschäftigt sich mit neuen Deep-Learning-Modellen für die Verarbeitung von 3D-Punktwolken. Insbesondere schlagen wir sequentielle und rekurrente Konsolidierungseinheiten vor, um den räumlichen Kontext von Punktnetzen zu erhöhen, und einen einfachen, aber effizienten Dilatationsmechanismus zur Vergrößerung des rezeptiven Feldes von tiefen Punktfaltungsnetzen. Im dritten Teil schließlich stellen wir fortgeschrittene Deep-Learning-Modelle vor. Für die semantische Segmentierung stellen wir die Kombination von zwei Arten von Faltungen vor, die gemeinsam auf Punktwolken und Netzoberflächen arbeiten. Für die Instanzsegmentierung schlagen wir ein neues Paradigma vor, das Bottom-Up und Top-Down Ansätze kombiniert, die in früheren Arbeiten eingeführt wurden. Diese Arbeit schließt ab mit einer Diskussion zu den vorgestellten Themen und vielversprechenden Richtungen für zukünftige Forschung.

This thesis contributes to the emerging field of 3D scene understanding. That is, given a 3D scene representation as input, we address tasks such as 3D object detection, shape reconstruction and pose estimation, as well as 3D semantic- and instance-segmentation. The recent availability of inexpensive depth sensors has made 3D data widely accessible. At the same time, current aspirations in the field of robotics, augmented reality and self-driving cars require efficient and reliable algorithms for understanding different 3D scene representations, such as polygon meshes, point clouds or volumetric structures. While 3D data overcomes inherent limitations of projected 2D views, such as occlusions, scale-ambiguity and lack of geometry, it also introduces new challenges including sparsity and non-uniform sampling. Therefore, existing methods for 2D image processing might not generalize well to 3D data structures. In this thesis, we present novel approaches specific to 3D scene understanding. The main contributions are organized into three parts: The core contribution of the first part is a probabilistic formulation which integrates 3D shape and motion priors as well as stereo depth measurements into a global optimization problem. The resulting approach can jointly estimate the 3D shape, pose and motion of multiple vehicles in urban street scenes. The second part deals with new deep learning models for processing 3D point clouds. In particular, we propose sequential and recurrent consolidation units for increasing the spatial context of point networks, and a simple yet efficient dilation mechanism for increasing the receptive field size of deep point convolutional networks. Finally, in the third part, we introduce advanced deep learning models. For semantic segmentation, we present the combination of two types of convolutions operating jointly on point clouds and mesh surfaces. For instance segmentation, we propose a new paradigm combining the advantages of previous bottom-up and top-down approaches. This thesis concludes with a discussion and directions for future research.

OpenAccess:
PDF
(additional files)