Object discovery, interactive and 3D segmentation for large-scale computer vision tasks

Kontogianni, Theodora; Schindler, Konrad; Leibe, Bastian
doi:HT021351584
000844228 001__ 844228
000844228 005__ 20230411161817.0
000844228 0247_ $$2HBZ$$aHT021351584
000844228 0247_ $$2Laufende Nummer$$a41236
000844228 0247_ $$2datacite_doi$$a10.18154/RWTH-2022-03753
000844228 037__ $$aRWTH-2022-03753
000844228 041__ $$aEnglish
000844228 082__ $$a004
000844228 1001_ $$0P:(DE-588)1256601225$$aKontogianni, Theodora$$b0$$urwth
000844228 245__ $$aObject discovery, interactive and 3D segmentation for large-scale computer vision tasks$$cvorgelegt von Master of Science Theodora Kontogianni$$honline
000844228 260__ $$aAachen$$bRWTH Aachen University$$c2021
000844228 260__ $$c2022
000844228 300__ $$a1 Online-Ressource : Illustrationen
000844228 3367_ $$02$$2EndNote$$aThesis
000844228 3367_ $$0PUB:(DE-HGF)11$$2PUB:(DE-HGF)$$aDissertation / PhD Thesis$$bphd$$mphd
000844228 3367_ $$2BibTeX$$aPHDTHESIS
000844228 3367_ $$2DRIVER$$adoctoralThesis
000844228 3367_ $$2DataCite$$aOutput Types/Dissertation
000844228 3367_ $$2ORCID$$aDISSERTATION
000844228 500__ $$aVeröffentlicht auf dem Publikationsserver der RWTH Aachen University 2022
000844228 502__ $$aDissertation, RWTH Aachen University, 2021$$bDissertation$$cRWTH Aachen University$$d2021$$gFak01$$o2021-11-29
000844228 5203_ $$aDie Computer Vision hat im letzten Jahrzehnt enorme Sprünge gemacht. Einer der Schlüsselfaktoren für dieses Wachstum ist die riesige Menge an Daten, die wir heute generieren können: Millionen von Bildern werden täglich online geteilt und neue spezialisierte Sensoren ermöglichen die einfache Erfassung von 3D-Daten. Zusammen mit den jüngsten Fortschritten im Deep Learning und der zunehmenden Verfügbarkeit von Rechenleistung ist es nun möglich, diese großen Mengen an hochwertigen Daten zu nutzen. Infolgedessen konnte die Computer Vision in zahlreichen Bereichen und Anwendungen beeindruckende Leistungssteigerungen erzielen. Allerdings bringt die erhöhte Menge an verfügbaren Daten auch neue Herausforderungen mit sich. Um die große Menge an verfügbaren Daten zu nutzen, benötigen wir entweder effiziente unüberwachte Algorithmen, um Muster aus unmarkierten Daten zu lernen, oder wir benötigen effiziente Markierungswerkzeuge, um die Erstellung großer markierter Datensätze zu ermöglichen. Diese sind für den Erfolg der meisten Deep-Learning-Modelle unerläßlich. In dieser Arbeit befassen wir uns mit Problemen, die sich aus diesen verschiedenen Aspekten der Computer Vision ergeben: unüberwachte Algorithmen für die Erkennung von Landmarken, vollüberwachte Methoden für die semantische Segmentierung auf großen 3D-Punktwolken und interaktive Objektsegmentierung für die Beschriftung von Datensätzen außerhalb der Domäne. Genauer gesagt sind die Hauptbeiträge dieser Arbeit in drei Teile gegliedert, von denen jeder ein individuelles Thema der Computer Vision abdeckt: Im ersten Teil befassen wir uns mit dem Problem der Objekterkennung in zeitlich variierenden, großflächigen Bildsammlungen. Wir schlagen eine neuartige Baumstruktur vor, die sich dem Minimum Spanning Tree stark annähert, und präsentieren einen effizienten Konstruktionsansatz, um die Baumstruktur inkrementell zu aktualisieren, wenn neue Daten zur Bilddatenbank hinzugefügt werden. Dies geschieht entweder im Online-Streaming oder in Batch-Form. Die von uns vorgeschlagene Baumstruktur wird in einer lokalen Nachbarschaft des übereinstimmenden Graphen während des Bildabrufs erstellt und kann effizient aktualisiert werden, wenn die Bilddatenbank erweitert wird. Wir zeigen, wie unsere Baumstruktur in bestehende Clustering-Ansätze wie Single-Link und Iconoid Shift zur effizienten, großflächigen Objekterkennung in Bildsammlungen integriert werden kann. Im zweiten Teil der Arbeit konzentrieren wir uns auf die Definition neuartiger 3D-Faltungsoperatoren und rekurrenter Operatoren über unstrukturierten 3D-Punktwolken. Das Ziel ist es, Punktrepräsentationen für die Aufgabe der semantischen 3D-Segmentierung zu erlernen. Die rekurrente Konsolidierungsschicht operiert auf Multiskalen- und Gitternachbarschaften entlang und erlaubt unserem Modell, weitreichende Abhängigkeiten zu lernen. Zusätzlich führen wir zwei Arten von lokalen Nachbarschaften für jeden 3D-Punkt ein, die lokale Geometrie kodieren, um die Definition und Verwendung von Faltungen auf 3D-Punktwolken zu erleichtern. Im dritten Teil schließlich widmen wir uns der Aufgabe der interaktiven Objektsegmentierung. Mit Hilfe eines Algorithmus segmentiert ein Benutzer eine Objektmaske in einem gegebenen Bild, indem er innerhalb oder außerhalb des Objekts klickt. Wir stellen eine Methode vor, die die Anzahl der erforderlichen Benutzerklicks im Vergleich zu früheren Arbeiten deutlich reduziert. Insbesondere betrachten wir Out-of-Domain-Einstellungen, bei denen sich die Testdatensätze signifikant von den Datensätzen unterscheiden, die zum Trainieren unseres Deep Models verwendet wurden. Wir schlagen vor, Benutzerkorrekturen als spärliche Überwachung zu behandeln, um unsere Modellparameter on-the-fly anzupassen. Unsere adaptive Methode kann die Anzahl der erforderlichen Klicks zur Segmentierung eines Objekts erheblich reduzieren und Verteilungsverschiebungen von klein bis groß handhaben, auf eine neue Klasse von Objekten spezialisieren, die während der Testzeit eingeführt werden, und kann sogar große Domänenwechsel von kommerziellen Bildern zu medizinischen und Luftbilddaten bewältigen.$$lger
000844228 520__ $$aComputer vision has made tremendous leaps during the past decade. One of the key factors behind this growth is the vast amount of data that we can generate today: millions of pictures are shared online daily and new specialized sensors allow to easily capture 3D data. Along with the recent advances in deep learning and increased availability of computational power, it is now possible to take advantage of these large amounts of high-quality data. As a result, computer vision achieved impressive performance gains across numerous fields and applications. However, the increased amount of available data also introduces new challenges. To exploit the large body of available data, we either need efficient unsupervised algorithms to learn patterns from unlabeled data, or we require efficient labeling tools to allow the creation of large-scale labeled datasets. These are essential for the success of most deep learning models. In this thesis, we deal with issues arising from these different aspects of computer vision: unsupervised algorithms for landmark recognition, fully-supervised methods for semantic segmentation on large-scale 3D point clouds and interactive object segmentation for out-of-domain dataset labeling. More specifically, the main contributions of this thesis are organized into three parts, each one covering an individual computer vision topic: In the first part, we address the problem of object discovery in time - varying, large - scale image collections. We propose a novel tree structure that closely approximates the Minimum Spanning Tree and present an efficient construction approach to incrementally update the tree structure when new data is added to the image database. This happens either in online-streaming or batch form. Our proposed tree structure is created in a local neighborhood of the matching graph during image retrieval and can be efficiently updated whenever the image database is extended. We show how our tree structure can be incorporated in existing clustering approaches such as Single-Link and Iconoid Shift for efficient large-scale object discovery in image collections. In the second part of the thesis, we focus on defining novel 3D convolutional and recurrent operators over unstructured 3D point clouds. The goal is to learn point representations for the task of 3D semantic segmentation. The recurrent consolidation unit layer operates on multi-scale and grid neighborhoods along and allows our model to learn long-range dependencies. Additionally, we introduce two types of local neighborhoods for each 3D point that encode local geometry to facilitate the definition and use of convolutions on 3D point clouds. Finally, in the third part, we address the task interactive object segmentation. Aided by an algorithm, a user segments an object mask in a given image by clicking inside or outside the object. We present a method that significantly reduces the number of required user clicks compared to previous work. In particular, we look at out-of-domain settings where the test datasets are significantly different from the datasets used to train our deep model. We propose to treat user corrections as sparse supervision to adapt our model parameters on-the-fly. Our adaptive method can significantly reduce the number of required clicks to segment an object and handle distribution shifts from small to large, specialize to a new class of objects introduced during test time, and can even handle large domain changes from commercial images to medical and aerial data.$$leng
000844228 588__ $$aDataset connected to Lobid/HBZ
000844228 591__ $$aGermany
000844228 653_7 $$acomputer vision
000844228 653_7 $$ainteractive segmentation
000844228 653_7 $$aobject discovery
000844228 653_7 $$asemantic segmentation
000844228 7001_ $$0P:(DE-82)IDM02387$$aLeibe, Bastian$$b1$$eThesis advisor$$urwth
000844228 7001_ $$0P:(DE-82)015680$$aSchindler, Konrad$$b2$$eThesis advisor
000844228 8564_ $$uhttps://publications.rwth-aachen.de/record/844228/files/844228.pdf$$yOpenAccess
000844228 8564_ $$uhttps://publications.rwth-aachen.de/record/844228/files/844228_source.zip$$yRestricted
000844228 909CO $$ooai:publications.rwth-aachen.de:844228$$popenaire$$popen_access$$pVDB$$pdriver$$pdnbdelivery
000844228 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-588)1256601225$$aRWTH Aachen$$b0$$kRWTH
000844228 9101_ $$0I:(DE-588b)36225-6$$6P:(DE-82)IDM02387$$aRWTH Aachen$$b1$$kRWTH
000844228 9141_ $$y2021
000844228 915__ $$0StatID:(DE-HGF)0510$$2StatID$$aOpenAccess
000844228 9201_ $$0I:(DE-82)123710_20200205$$k123710$$lLehrstuhl für Informatik 13 (Computer Vision)$$x0
000844228 9201_ $$0I:(DE-82)120000_20140620$$k120000$$lFachgruppe Informatik$$x1
000844228 961__ $$c2022-05-25T13:53:58.324035$$x2022-04-08T14:34:03.364139$$z2022-05-25T13:53:58.324035
000844228 9801_ $$aFullTexts
000844228 980__ $$aI:(DE-82)120000_20140620
000844228 980__ $$aI:(DE-82)123710_20200205
000844228 980__ $$aUNRESTRICTED
000844228 980__ $$aVDB
000844228 980__ $$aphd
h1

h2

h3

h4

h5

h6

RWTH

Kontakt

RWTH Publications

Allgemeines