2020 & 2021
Dissertation, RWTH Aachen University, 2020
Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2021
Genehmigende Fakultät
Fak01
Hauptberichter/Gutachter
;
Tag der mündlichen Prüfung/Habilitation
2020-12-04
Online
DOI: 10.18154/RWTH-2021-01919
URL: https://publications.rwth-aachen.de/record/813739/files/813739.pdf
Einrichtungen
Inhaltliche Beschreibung (Schlagwörter)
2D-Warping (frei) ; alignment (frei) ; convolutional neural networks (frei) ; fine-grained image recognition (frei) ; localization (frei)
Thematische Einordnung (Klassifikation)
DDC: 004
Kurzfassung
Die Bilderkennung beschäftigt sich mit der Frage, welche Objekte in einem Bild zu sehen sind. Konkrete Klassifikationsaufgaben definieren dazu eine begrenzte Anzahl von Klassen, die zu unterscheiden sind. Allgemein kann die Bilderkennung in verschiedene Teilbereiche aufgegliedert werden, wobei sich die Unterteilung danach richtet, wie ähnlich sich die zu unterscheidenden Klassen sind. Auf der einen Seite können die Klassen sehr unterschiedlich sein, wenn zum Beispiel die Aufgabe darin besteht, zwischen allgemeinen Klassen zu unterscheiden (z.B. Auto, Tisch, Katze, etc.). Auf der anderen Seite können die Unterschiede zwischen den Klassen sehr subtil sein. Beispiele dafür sind unter anderem die Klassifikation von verschiedenen Fahrzeugmodellen, oder die Klassifikation in verschiedene Unterarten einer bestimmten Tierart. Ein besonderer Fall ist die Gesichtserkennung, denn hier muss zwischen Individuen unterschieden werden. Für Klassifikationsaufgaben mit sehr ähnlichen Klassen ist es nicht nur wichtig, Merkmale in einem Bild zu erkennen, sondern auch wo in dem Bild sie zu finden sind und wie sie räumlich voneinander abhängen. In dieser Dissertation werden verschiedene Methoden betrachtet, um Merkmale zu lokalisieren und räumlich auszurichten. Dazu betrachten wir auf der einen Seite eine genaue räumliche Ausrichtung für jedes einzelne Pixel mithilfe von 2D-Warping. Dabei werden Methoden vorgestellt, um die Berechnung des 2D-Warpings zu beschleunigen. Zusätzlich stellen wir einen neuen Algorithmus vor, der bessere Ergebnisse bezüglich des Optimierungskriteriums und der Erkennungsrate erzeugt. Auf der anderen Seite werden neue Methoden vorgestellt, bessere lokale Merkmale zu bestimmen, die wiederum auch zu einer besseren Erkennungsrate führen. Diese Merkmale werden mithilfe eines Convolutional Neural Networks (CNN) erstellt. Weiterhin stellen wir einen verformbaren Region-of-interest Pooling Layer vor, der ebenfalls auf 2D-Warping beruht. Dieser Layer kann in ein bereits trainiertes CNN eingefügt werden und ermöglicht die Erkennung von Bildern mit räumlichen Verzerrungen, die in den Trainings-Daten nicht vorkommen. Dabei stellen wir fest, dass das Ausgleichen von Skalierung und Translation den größten Einfluss auf die Erkennungsrate hat. Daher entwickeln wir ein Lokalisierungsmodul für diesen Zweck, dass ebenfalls in ein CNN eingefügt werden kann. Das Modul ist sehr effizient bezüglich Laufzeit und Speicherplatz und benötigt keine zusätzlichen Annotationen. Zusätzlich erweitern wir das CNN Modell durch globales K-Max Pooling und einen Embedding Layer, der die Bilder in einen diskriminativen Vektorraum abbildet. Ein Nachteil des angesprochenen Lokalisierungsmoduls ist, dass es in einem separaten Schritt trainiert wird. Daher wandeln wir es in ein differenzierbares Modul um, sodass es zusammen mit dem CNN end-to-end trainiert werden kann. Wir evaluieren die vorgestellten Methoden auf verschiedenen populären Benchmark-Datenbanken. Für einige dieser Datenbanken erreichen wir die beste bis zu diesem Zeitpunkt publizierte Erkennungsrate.The goal of image recognition is to identify or recognize objects shown in an image. Image recognition tasks can be classified into different categories with respect to the extent of the inter-class variations. General image recognition tasks typically classify images into a wide variety of broad categories and therefore display large inter-class variation. Fine-grained image classifications tasks, however, are defined by low inter-class variation. Examples of such tasks include the classification of different car models or animal species. A special case of a fine-grained image classification task is face recognition, where individuals have to be classified. For fine-grained tasks, it is not only important to detect which features are in an image, but also where they are located and what their spatial relations are. In this thesis we look at different methods to align and localize features and discriminative regions for fine-grained image classification. On the one hand, we will look at computing dense pixel-wise alignments using 2D-Warping. In this context, we will introduce methods for speeding up the computation of the dense alignments as the runtime is the main drawback of 2D-Warping based approaches. Additionally, we will introduce a new 2D-Warping algorithm that obtains better results in terms of optimization score and classification accuracy compared to previous 2D-Warping algorithms. On the other hand, we will explore a new method to obtain local features needed to compute the dense alignments. These features are learned from data using convolutional neural networks (CNNs). Further, we will introduce a warped region-of-interest pooling layer based on 2D-Warping that can be inserted into a trained CNN to recognize images with spatial deformations not seen in training. We will observe that for the classification accuracy, modeling translation and scaling are most important. For this reason we introduce a localization module that handles translation and scaling variances, is very lightweight and efficient, and needs only class labels to be trained. We then add an embedding layer and global K-max pooling to obtain a complete and efficient system for fine-grained image classification. While the aforementioned localization module is effective, it is implemented in a stand-alone module that is trained separately from the classification model. To simplify the training procedure and leverage the benefits of full end-to-end systems, we transform the localization module such that it can be integrated into the classification model and trained jointly. We evaluate our methods on popular and challenging tasks for fine-grained image classification and are able to report very competitive results. On some tasks we can even report the best state-of-the-art accuracy.
OpenAccess:
PDF
(additional files)
Dokumenttyp
Dissertation / PhD Thesis
Format
online
Sprache
English
Externe Identnummern
HBZ: HT020861229
Interne Identnummern
RWTH-2021-01919
Datensatz-ID: 813739
Beteiligte Länder
Germany
|
The record appears in these collections: |