2016 & 2017
Dissertation, RWTH Aachen University, 2016
Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2017
Genehmigende Fakultät
Fak01
Hauptberichter/Gutachter
;
Tag der mündlichen Prüfung/Habilitation
2016-07-21
Online
URN: urn:nbn:de:hbz:82-rwth-2017-009691
DOI: 10.18154/RWTH-2017-00969
URL: http://publications.rwth-aachen.de/record/682711/files/682711.pdf
URL: http://publications.rwth-aachen.de/record/682711/files/682711.pdf?subformat=pdfa
Einrichtungen
Inhaltliche Beschreibung (Schlagwörter)
computer graphics (frei) ; markerless performance capture (frei) ; multi-view stereo (frei) ; face tracking (frei) ; facial animation (frei) ; tracking (frei)
Thematische Einordnung (Klassifikation)
DDC: 004
Kurzfassung
In dieser Dissertation werden neue, rein bildbasierte Techniken zur Erkennung, Rekonstruktion und zum Tracking von menschlichen Gesichtern vorgestellt. Die Arbeit ist in zwei Teile aufgeteilt. Während der erste Teil statische Gesichter betrachtet, beschäftigt sich der zweite Teil mit dynamischen Gesichtsbewegungen. Für statische Gesichter stellen wir eine neue Lokalisierungsmethode für markante Gesichtsmerkmale vor, die die Position der Merkmale relative zu gleich verteilten Bildregionen bestimmt. Wir definieren und trainieren ein kompaktes Codebook, mit dessen Hilfe vorhergesagt werden kann, wo Gesichtsmerkmale relative zu den Zentren von Bildregionen eines bestimmten Aussehens liegen. Verglichen mit state-of-the-art Methoden können wir zeigen, dass dieses kompakte Codebook Vorteile in Bezug auf Rechenzeit und Speicherauslastung hat ohne dabei die Genauigkeit zu beeinträchtigen. Im folgenden Kapitel verlassen wir den zweidimensionalen Bildraum und vergleichen zwei neue Methoden, die die dreidimensionale Oberfläche von Gesichtern aus mehreren Bildern rekonstruieren. Die Bilder wurden dabei mit einem synchronisierten Kamera-Rig aufgenommen. Mit dem Ziel eine große Datenbank von 3D Gesichtsbewegungen zu erstellen, erweitern wir beide Rekonstruktionssysteme im zweiten Teil der Arbeit, um menschliche Gesichter aus Videos zu rekonstruieren und zu tracken, die mit unserem Kamera-Rig erstellt wurden. Beide Systeme arbeiten dabei rein bildbasiert und es sind keine zusätzlichen Markierungen auf den Gesichtern nötig. Unter sorgsamer Berücksichtigung aller Anforderungen und Diskussion der einzelnen Komponenten, präsentieren wir ein System, das effizient und robust ein generisches Polygonmodell deformieren kann, so dass die Gesichtsbewegungen der gefilmten Person modelliert werden. Dabei bewahrt das System temporale und räumliche Korrespondenzen zwischen den rekonstruierten Gesichtern. Aufgrund dieser Eigenschaft, können wir die resultierende Datenbank - die verschiedene Gesichtsbewegungen von vielen Personen enthält - statistisch analysieren, um ein generisches Bewegungsmodell von Gesichtern zu erstellen. Dabei ist dieses Bewegungsmodell unabhängig von der individuellen Physiognomie. Im letzten Kapitel stellen wir einen neuen 3D Tracking Ansatz für Gesichter vor, der ohne Markierungen arbeitet und der als Eingabe nur ein Video oder eine Bildsequenz benötigt. Unser Ansatz verfolgt dabei 2D Gesichtsmerkmale im Video, die wiederum den Zustand unseres generischen Bewegungsmodells steuern. Der wichtigste Beitrag liegt hier in der Formulierung eines Vorhersagemodells für Gesichtsbewegungen, welches wir aus unserem Bewegungsmodell ableiten. Wir zeigen, dass die so abgeleiteten Bewegungszustände wieder auf die ursprüngliche Gesichtsform übertragen werden können, um die gefilmte Gesichtsbewegung im 3D zu rekonstruieren. Weiterhin ist es möglich die Bewegungszustände auf andere Gesichter zu übertragen, so dass eine andere (virtuelle) Person die gleichen Bewegungen vollzieht wie der gefilmte Schauspieler. Wir zeigen die Effektivität unserer Technik anhand zahlreicher Beispiele.In this thesis we developed new techniques to detect, reconstruct and track human faces from pure image data. It is divided into two parts. While the first part considers static faces only, the second part deals with dynamic facial movements. For static faces we introduce a new facial feature localization method that determines the position of facial features relative to segments that were uniformly distributed in an input image. In this work we introduce and train a compact codebook that is the foundation of a voting scheme: Based on the appearance of an image segment this codebook provides offset vectors originating form the segments center and pointing towards possible feature locations. Compared to state-of-the-art methods, we show that this compact codebook has advantages regarding computational time and memory consumptions without losing accuracy. Leaving the two-dimensional image space, in the following chapter we introduce and compare two new 3D reconstruction approaches that extracts the 3D shape of a human face from multiple images. Those images were synchronously taken by a calibrated camera rig. With the aim of generating a large database of 3D facial movements, in the second part of this thesis we extend both systems to reconstruct and track human faces in 3D from videos taken by our camera rig. Both systems are completely image based and do not require any kind of facial markers. By carefully taking all requirements and characteristics into account and discussing single steps of the pipeline, we propose our facial reconstruction system that efficiently and robustly deforms a generic 3D mesh template to track a human face over time. Our tracking system preserves temporal and spatial correspondences between reconstructed faces. Due to this fact we can use the resulting database of facial movements, showing different facial expressions of a fairly large number of subjects, for further statistical analysis and to compute a generic movement model for facial actions. This movement model is independent from individual facial physiognomies. In the last chapter we introduce a new marker-less 3D face tracking approach for 2D video streams captured by a single consumer grade camera. Our approach tracks 2D facial features and uses them to drive the evolution of our generic motion model. Here, our major contribution lies in the formulation of a smooth deformation prior which we derive from our generic motion model. We show that derived motions can be mapped back onto the individual facial shape, which leads to a reconstruction of the facial performance as seen in the video sequence. Additionally we show that it is possible to map the motion to another facial shape to drive the facial performance of a different (virtual) character. We demonstrate the effectiveness of our technique on a number of examples.
OpenAccess:
PDF
PDF (PDFA)
(additional files)
Dokumenttyp
Book/Dissertation / PhD Thesis
Format
online
Sprache
English
Externe Identnummern
HBZ: HT019220981
Interne Identnummern
RWTH-2017-00969
Datensatz-ID: 682711
Beteiligte Länder
Germany
|
The record appears in these collections: |