Object discovery, interactive and 3D segmentation for large-scale computer vision tasks

Kontogianni, Theodora; Schindler, Konrad; Leibe, Bastian

doi:HT021351584

Object discovery, interactive and 3D segmentation for large-scale computer vision tasks

Kontogianni, Theodora^RWTH*

2021 & 2022

Verantwortlichkeitsangabevorgelegt von Master of Science Theodora Kontogianni

ImpressumAachen : RWTH Aachen University 2021

Umfang1 Online-Ressource : Illustrationen

Dissertation, RWTH Aachen University, 2021

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2022

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Leibe, Bastian (Thesis advisor)^RWTH* ; Schindler, Konrad (Thesis advisor)

Tag der mündlichen Prüfung/Habilitation
2021-11-29

Online
DOI: 10.18154/RWTH-2022-03753
URL: https://publications.rwth-aachen.de/record/844228/files/844228.pdf

Einrichtungen

Inhaltliche Beschreibung (Schlagwörter)
computer vision (frei) ; interactive segmentation (frei) ; object discovery (frei) ; semantic segmentation (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Die Computer Vision hat im letzten Jahrzehnt enorme Sprünge gemacht. Einer der Schlüsselfaktoren für dieses Wachstum ist die riesige Menge an Daten, die wir heute generieren können: Millionen von Bildern werden täglich online geteilt und neue spezialisierte Sensoren ermöglichen die einfache Erfassung von 3D-Daten. Zusammen mit den jüngsten Fortschritten im Deep Learning und der zunehmenden Verfügbarkeit von Rechenleistung ist es nun möglich, diese großen Mengen an hochwertigen Daten zu nutzen. Infolgedessen konnte die Computer Vision in zahlreichen Bereichen und Anwendungen beeindruckende Leistungssteigerungen erzielen. Allerdings bringt die erhöhte Menge an verfügbaren Daten auch neue Herausforderungen mit sich. Um die große Menge an verfügbaren Daten zu nutzen, benötigen wir entweder effiziente unüberwachte Algorithmen, um Muster aus unmarkierten Daten zu lernen, oder wir benötigen effiziente Markierungswerkzeuge, um die Erstellung großer markierter Datensätze zu ermöglichen. Diese sind für den Erfolg der meisten Deep-Learning-Modelle unerläßlich. In dieser Arbeit befassen wir uns mit Problemen, die sich aus diesen verschiedenen Aspekten der Computer Vision ergeben: unüberwachte Algorithmen für die Erkennung von Landmarken, vollüberwachte Methoden für die semantische Segmentierung auf großen 3D-Punktwolken und interaktive Objektsegmentierung für die Beschriftung von Datensätzen außerhalb der Domäne. Genauer gesagt sind die Hauptbeiträge dieser Arbeit in drei Teile gegliedert, von denen jeder ein individuelles Thema der Computer Vision abdeckt: Im ersten Teil befassen wir uns mit dem Problem der Objekterkennung in zeitlich variierenden, großflächigen Bildsammlungen. Wir schlagen eine neuartige Baumstruktur vor, die sich dem Minimum Spanning Tree stark annähert, und präsentieren einen effizienten Konstruktionsansatz, um die Baumstruktur inkrementell zu aktualisieren, wenn neue Daten zur Bilddatenbank hinzugefügt werden. Dies geschieht entweder im Online-Streaming oder in Batch-Form. Die von uns vorgeschlagene Baumstruktur wird in einer lokalen Nachbarschaft des übereinstimmenden Graphen während des Bildabrufs erstellt und kann effizient aktualisiert werden, wenn die Bilddatenbank erweitert wird. Wir zeigen, wie unsere Baumstruktur in bestehende Clustering-Ansätze wie Single-Link und Iconoid Shift zur effizienten, großflächigen Objekterkennung in Bildsammlungen integriert werden kann. Im zweiten Teil der Arbeit konzentrieren wir uns auf die Definition neuartiger 3D-Faltungsoperatoren und rekurrenter Operatoren über unstrukturierten 3D-Punktwolken. Das Ziel ist es, Punktrepräsentationen für die Aufgabe der semantischen 3D-Segmentierung zu erlernen. Die rekurrente Konsolidierungsschicht operiert auf Multiskalen- und Gitternachbarschaften entlang und erlaubt unserem Modell, weitreichende Abhängigkeiten zu lernen. Zusätzlich führen wir zwei Arten von lokalen Nachbarschaften für jeden 3D-Punkt ein, die lokale Geometrie kodieren, um die Definition und Verwendung von Faltungen auf 3D-Punktwolken zu erleichtern. Im dritten Teil schließlich widmen wir uns der Aufgabe der interaktiven Objektsegmentierung. Mit Hilfe eines Algorithmus segmentiert ein Benutzer eine Objektmaske in einem gegebenen Bild, indem er innerhalb oder außerhalb des Objekts klickt. Wir stellen eine Methode vor, die die Anzahl der erforderlichen Benutzerklicks im Vergleich zu früheren Arbeiten deutlich reduziert. Insbesondere betrachten wir Out-of-Domain-Einstellungen, bei denen sich die Testdatensätze signifikant von den Datensätzen unterscheiden, die zum Trainieren unseres Deep Models verwendet wurden. Wir schlagen vor, Benutzerkorrekturen als spärliche Überwachung zu behandeln, um unsere Modellparameter on-the-fly anzupassen. Unsere adaptive Methode kann die Anzahl der erforderlichen Klicks zur Segmentierung eines Objekts erheblich reduzieren und Verteilungsverschiebungen von klein bis groß handhaben, auf eine neue Klasse von Objekten spezialisieren, die während der Testzeit eingeführt werden, und kann sogar große Domänenwechsel von kommerziellen Bildern zu medizinischen und Luftbilddaten bewältigen.

Computer vision has made tremendous leaps during the past decade. One of the key factors behind this growth is the vast amount of data that we can generate today: millions of pictures are shared online daily and new specialized sensors allow to easily capture 3D data. Along with the recent advances in deep learning and increased availability of computational power, it is now possible to take advantage of these large amounts of high-quality data. As a result, computer vision achieved impressive performance gains across numerous fields and applications. However, the increased amount of available data also introduces new challenges. To exploit the large body of available data, we either need efficient unsupervised algorithms to learn patterns from unlabeled data, or we require efficient labeling tools to allow the creation of large-scale labeled datasets. These are essential for the success of most deep learning models. In this thesis, we deal with issues arising from these different aspects of computer vision: unsupervised algorithms for landmark recognition, fully-supervised methods for semantic segmentation on large-scale 3D point clouds and interactive object segmentation for out-of-domain dataset labeling. More specifically, the main contributions of this thesis are organized into three parts, each one covering an individual computer vision topic: In the first part, we address the problem of object discovery in time - varying, large - scale image collections. We propose a novel tree structure that closely approximates the Minimum Spanning Tree and present an efficient construction approach to incrementally update the tree structure when new data is added to the image database. This happens either in online-streaming or batch form. Our proposed tree structure is created in a local neighborhood of the matching graph during image retrieval and can be efficiently updated whenever the image database is extended. We show how our tree structure can be incorporated in existing clustering approaches such as Single-Link and Iconoid Shift for efficient large-scale object discovery in image collections. In the second part of the thesis, we focus on defining novel 3D convolutional and recurrent operators over unstructured 3D point clouds. The goal is to learn point representations for the task of 3D semantic segmentation. The recurrent consolidation unit layer operates on multi-scale and grid neighborhoods along and allows our model to learn long-range dependencies. Additionally, we introduce two types of local neighborhoods for each 3D point that encode local geometry to facilitate the definition and use of convolutions on 3D point clouds. Finally, in the third part, we address the task interactive object segmentation. Aided by an algorithm, a user segments an object mask in a given image by clicking inside or outside the object. We present a method that significantly reduces the number of required user clicks compared to previous work. In particular, we look at out-of-domain settings where the test datasets are significantly different from the datasets used to train our deep model. We propose to treat user corrections as sparse supervision to adapt our model parameters on-the-fly. Our adaptive method can significantly reduce the number of required clicks to segment an object and handle distribution shifts from small to large, specialize to a new class of objects introduced during test time, and can even handle large domain changes from commercial images to medical and aerial data.

OpenAccess:
PDF
(additional files)