Multi-object tracking and person analysis from mobile robot platforms

Breuers, Stefan; Groß, Horst-Michael; Leibe, Bastian

doi:10.18154/RWTH-2020-03423

Multi-object tracking and person analysis from mobile robot platforms

Breuers, Stefan^RWTH*

2020

VerantwortlichkeitsangabeStefan Breuers

ImpressumDüren : Shaker Verlag 2020

Umfang1 Online-Ressource (viii, 130 Seiten) : Illustrationen, Diagramme

ISBN978-3-8440-7283-9

ReiheSelected topics in computer vision ; 4

Dissertation, RWTH Aachen University, 2019

Auch veröffentlicht auf dem Publikationsserver der RWTH Aachen University

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Leibe, Bastian (Thesis advisor)^RWTH* ; Groß, Horst-Michael (Thesis advisor)

Tag der mündlichen Prüfung/Habilitation
2019-12-02

Online
DOI: 10.18154/RWTH-2020-03423
URL: https://publications.rwth-aachen.de/record/785692/files/785692.pdf

Einrichtungen

Inhaltliche Beschreibung (Schlagwörter)
mobile robot platforms (frei) ; multi-object tracking (frei) ; person analysis (frei) ; person detection (frei) ; person tracking (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Multi-Objekt-Tracking ist ein breites und sehr aktives Forschungsgebiet im Bereich der Computer-Vision. Das Auffinden der Trajektorien mehrerer Personen in einer Szene ist eine wichtige Schlüsselkomponente in der Videoanalyse, der Überwachung, dem autonomen Fahren sowie der mobilen Robotik. Letztere Anwendung hat zu mehreren internationalen Forschungsprojekten geführt, die z.B. soziale Dienstplattformen entwickeln, auf deren Ergebnissen diese Arbeit basiert. Zunächst werden gängige Ansätze für bildbasiertes 2D Multi-Objekt-Tracking untersucht und exemplarische Methoden hinsichtlich ihrer Fehler analysiert. Wir schlagen einen Klassifikator vor, der Situationen lernt, in denen falschpositive Tracks auftreten, basierend auf Bounding Box Kontext Merkmalen. Die einzelnen Charakteristika ermöglichen eine Kombination der Ausgabe der Tracker und wir zeigen, dass dies zu einem verbesserten Gesamtergebnis führt. Dies zeigt nicht nur, dass es noch Verbesserungspotenzial für einzelne Methoden gibt, sondern auch, dass Multi-Objekt-Tracker unterschiedliche Stärken haben und wir immer alle Bewertungsmaßnahmen in Betracht ziehen müssen. Bei der Analyse der Ergebnisse dieser Tracker ist es daher wichtig, das Anwendungsszenario im Auge zu behalten. Wie bereits erwähnt, werfen wir einen Blick auf Roboterplattformen und untersuchen, wie gut aktuelle Multi-Objekt-Tracking Ansätze in diesen 3D-Welt Situationen funktionieren. Hierfür stellen wir eine hochgradig modulare Detektions-Tracking-Pipeline vor. Wir diskutieren wichtige Designentscheidungen unter Berücksichtigung der gewählten Datenassoziation oder des Einsatzes multimodaler Detektoren, bei denen eine komplexe Methode bzw. mehr Eingangsdaten nicht immer zu einer besseren Tracking-Performance führen. Wir erweitern dann die oben genannte Pipeline, um auch Personenanalysemodule als weitere modulare Komponente zu integrieren. Durch die Verwendung der eindeutigen Trajektorien können wir eine zeitliche Filterung auf die Analyseausgabe jeder getrackten Person anwenden. Am Beispiel der Schätzung von Kopf- und Körperhaltung zeigen wir, dass wir auf diese Weise ein geglättetes, verbessertes Ergebnis dieser Attribute erhalten. Darüber hinaus ist es möglich, diese Filter mit einem gewissen Schrittwert auszuführen, was zu einem enormen Leistungsschub im Umgang mit diesen teuren Deep Learning Methoden führt. Schließlich untersuchen wir auch einen neuen Multi-Objekt-Tracking Ansatz, der auf diesem erfolgreichen Deep-Learning-Framework aufbaut. Während bestehende Methoden oft tiefe Erscheinungs- oder Bewegungsmodelle verwenden, um die Datenassoziation zu unterstützen, versuchen wir, die Abhängigkeit von einem Detektor und damit die Notwendigkeit der Datenassoziation vollständig zu umgehen. Dazu nutzen wir ein starkes Re-Identifikationsmodell, das auf triplet loss basiert, innerhalb eines optimalen Bayes-Filter, welcher die theoretische Grundlage für viele Tracking Methoden bildet. Durch die Modellierung von Track Zuständen als vollständige Wahrscheinlichkeitsverteilungen können wir direkt auf den Eingangsbildern arbeiten und einen Schritt in Richtung eines Ende-zu-Ende Bild-zu-Track-Ansatzes machen.

Multi-object tracking is a broad and very active field of research in the area of computer vision. Finding the trajectories of multiple persons in a scene is an important key component in video analysis, surveillance, autonomous driving, as well as mobile robotics. The latter application has led to several international research projects, e.g., developing social service platforms, on whose results this thesis is based on. First, we study common approaches for image-based 2D multi-object tracking and analyze exemplary methods with regard to the errors they make. We propose a classifier that learns the situations where false positive tracks appear, based on bounding box context features. The individual characteristics allow for a combination of the trackers’ output and we show that this leads to an improved general result. This not only indicates that there is still potential to improve individual methods, but also that multi-object trackers have different strengths and we always need to take a full look on all the evaluation measures. When analyzing the results of those trackers it is therefore important to keep the application scenario in mind. As mentioned above, we have a look at robot platforms and examine how well recent multi-object tracking approaches perform in those 3D world situations. For this, we present a highly modular detection-tracking pipeline. We discuss important design choices, considering the chosen data association or the use of multi-modal detectors, where complex methods or more input, respectively, does not always lead to better tracking performance. We then extend the above pipeline to also integrate person analysis modules as another modular level. By using the unique trajectories, we can apply temporal filtering on the analysis output of each tracked person. On the example of head and body pose estimation, we show that this way, we get a smoothed, improved result of those attributes. Additionally, it is possible to run those filters with a certain stride, resulting in a huge performance boost when dealing with those expensive deep learning methods. Finally, we also explore a new multi-object tracking approach building on top of this successful deep learning framework. While existing methods often use deep appearance or motion models to help the data association step, we try to completely sidestep the dependency on a detector and therefore the need for data association. In order to do so, we make use of a strong re-identification model based on triplet loss inside an optimal Bayes filter, which forms the theoretical foundation of many tracking methods. By modeling track states as full probability maps, we can operate directly on the image input, taking a step towards an end-to-end image-to-track approach.

OpenAccess:
PDF
(additional files)