2021 & 2022
Dissertation, RWTH Aachen University, 2021
Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2022
Genehmigende Fakultät
Fak01
Hauptberichter/Gutachter
;
Tag der mündlichen Prüfung/Habilitation
2021-12-03
Online
DOI: 10.18154/RWTH-2022-09640
URL: https://publications.rwth-aachen.de/record/854578/files/854578.pdf
Einrichtungen
Inhaltliche Beschreibung (Schlagwörter)
computer vision (frei) ; deep learning (frei) ; detection (frei) ; orientation regression (frei) ; person re-identification (frei) ; robotics (frei) ; tracking (frei)
Thematische Einordnung (Klassifikation)
DDC: 004
Kurzfassung
Dank den Fortschritten in Robotik, Navigation, Lokalisierung und maschineller Wahrnehmung in den letzten Jahrzehnten, werden mobile Roboter (wie z.B. selbstfahrende Autos) immer häufiger unter Menschen eingesetzt. Für solche Roboter ist es kritisch, die Menschen um sich herum zu verstehen. Diese Dissertation besteht aus einer Sammlung an Arbeiten, die den aktuellen Stand der Forschung in Sachen visueller Wahrnehmung von Menschen deutlich vorantreibt. Wir fangen mit der Einführung einer grundsätzlich neuen Methode zur Detektion von Menschen in 2D LiDAR Scannern an. Unsere Methode, die wir DROW nennen, basiert auf einen voting Mechanismus, in dem jeder invidiuelle Messpunkt für eine Detektionshypothese wählt. DROW ist vollständig Datengetrieben, unterstützt auf natürliche Weise diverse Objekttypen, und schneidet deutlich besser als existierende 2D LiDAR Detektionsmethoden ab. Die Blickrichtung der Menschen ist ein subtiler, dennoch wichtiger Hinweis auf die Aufmerksamkeit und mögliche Bewegungsplanung. Deshalb haben wir ein neues Modul für Neuronale Netze entwickelt, das Biternion, welches es zusammen mit der neuen von-Mises Kostenfunktion ermöglicht, stufenlose Richtungsvorhersagen zu produzieren, sogar wenn diese mit ausschließlich diskreten Daten trainiert werden. Wir haben Biternions und die von-Mises Kostenfunktion zusätzlich darauf erweitert, einen Konfidenzwert zu jeder vorhersage zu geben. Als nächstes haben wir uns semantische Einbettungen von Bildern vorgenommen, mit besonderem Fokus auf Wiedererkennung von Personen und Objekten. Wir demonstrieren, dass der sogenannte “Triplet-loss” viel besser funktioniert, als bis dato angenommen wurde. Insbesondere schneidet unser vorgeschlagenes TriNet Modell (bestehend aus einem auf ImageNet vortrainierten ResNet50, der von uns eingeführten batch-hard version des Triplet losses, und einer soft margin) in standard Vergleichstests der Wiedererkennung von Menschen, Autos, Vögeln, und Produkten deutlich besser als bestehende Methoden ab. Alle unsere Fortschritte basieren auf tiefe Neuronale Netze, welche typischerweise Hardwarebeschleunigung benötigen, um Echtzeitfähig auf Robotern zu sein. Mehrere solche Komponenten gleichzeitig auf einem Roboter laufen zu lassen kostet viel Energie. Um diese Kosten zu minimieren, schlagen wir die DetTA pipeline vor, in welcher wir einen Tracker verwenden, um somit die Analysemodule nur gestaffelt ausführen, und während der Leerlaufzeit Track-basierende Filtervorhersagen verwenden. Zuletzt präsentieren wir eine grundsätzlich neue Art, Trackingalgorithmen zu entwerfen, in der von einem starken Personen Wiedererkennungsmodell ausgegangen wird. Diese Formulierung umgeht vollständig den problematischen Daten-Assoziationsschritt, bringt uns einen Schritt weiter in Richtung end-to-end learning für Tracking, und wirft viele neue, spannende Forschungsmöglichkeiten auf.Thanks to advances in robotics, navigation, localization, and perception in the last decade, mobile robots (which includes self-driving cars) are recently starting to be deployed in everyday life scenarios, surrounded by people. In such situations, understanding the people surrounding the robot is crucial. This thesis consists of a collection of works which significantly advance the state of the art in visual understanding of humans. First, we introduce a fundamentally new paradigm for performing detection in 2D LiDAR scans. Our detector, dubbed DROW, is based on a voting scheme, where each individual measuring point casts a vote. It is completely data-driven, naturally multiclass, and outperforms previous detectors and even trackers significantly. Orientation of people, as well as their head orientation, are important higher-level cues for attention and motion prediction. We introduce a new neural network output module, the Biternions, and a corresponding von-Mises loss function, which allow for accurate, continuous orientation prediction using only weak, discrete labeling of data. We furthermore extend it with a principled, learned measure of confidence in its own prediction. Then, we take a closer look at learning semantic embeddings of images, with focus mainly on person re-identification, and promising results on object recognition. We demonstrate that triplet-loss based approaches perform much better than previously assumed, while being a simple and ideologically “clean” family of methods. In fact, our proposed model using ImageNet pre-trained ResNet50, batch-hard triplet loss, PK-batches, and a soft margin significantly outperforms the state-of-the-art on multiple person re-identification benchmarks, as well as on fine-grained car, bird, and product recognition benchmarks. All aforementioned advances make use of deep learning, which typically results in algorithms which require hardware accelerators on the robot. Having multiple such components on a single robot comes at a cost. We investigate ways of mitigating this cost in our DetTA pipeline which leverages a tracker to perform strided execution of analysis modules (thus significantly reducing load) and per-person smoothing of the results (thus not decreasing prediction accuracy). Finally, motivated by the importance of tracking on mobile robots and our strong person re-identification results, we investigate a completely novel formulation to tracking which makes use of a solid person re-identification model from the ground up, bypassing the need for complicated data-association. This new formulation goes one step further towards end-to-end learning of tracking and opens up many novel research opportunities.
OpenAccess:
PDF
(additional files)
Dokumenttyp
Dissertation / PhD Thesis
Format
online
Sprache
English
Externe Identnummern
HBZ: HT021590683
Interne Identnummern
RWTH-2022-09640
Datensatz-ID: 854578
Beteiligte Länder
Germany
|
The record appears in these collections: |