Perceptual video coding using steerable pyramids

Thakur, Uday Singh; Ohm, Jens-Rainer; Bull, David

doi:10.18154/RWTH-2019-07494

Perceptual video coding using steerable pyramids

Thakur, Uday Singh^RWTH*

2018 & 2019

Verantwortlichkeitsangabevorgelegt von M.Sc. Uday Singh Thakur

ImpressumAachen 2018

Umfang1 Online-Ressource (xiv, 98 Seiten) : Illustrationen, Diagramme

Dissertation, Rheinisch-Westfälische Technische Hochschule Aachen, 2018

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2019

Genehmigende Fakultät
Fak06

Hauptberichter/Gutachter
Ohm, Jens-Rainer (Thesis advisor)^RWTH* ; Bull, David (Thesis advisor)

Tag der mündlichen Prüfung/Habilitation
2018-09-04

Online
DOI: 10.18154/RWTH-2019-07494
URL: http://publications.rwth-aachen.de/record/765565/files/765565.pdf

Einrichtungen

Lehrstuhl und Institut für Nachrichtentechnik (613210)

Inhaltliche Beschreibung (Schlagwörter)
HEVC (frei) ; perceptual coding (frei) ; steerable pyramids (frei)

Thematische Einordnung (Klassifikation)
DDC: 621.3

Kurzfassung
Im Rahmen dieser Arbeit konzentrieren wir uns hauptsächlich auf die Entwicklung von Codierungswerkzeugen für statische und dynamische Texturen. Sowohl statische als auch dynamische Texturen stellen eine Herausforderung für Videocodecs der aktuellen Generation dar. Statische Texturen zeichnen sich durch hohe räumliche Variationen aus, die zufällig über den strukturierten Regionen eines Bildes verteilt sind. Bei niedrigen Bitraten zeigen solche Inhalte oft hohe Block- und Unschärfeartefakte im Vergleich zu nicht texturierten Inhalten. Als mögliche Lösung dieses Problem wird vorgeschlagen, auf der Decoderseite die Textursynthese auf Basis der Steerable-Pyramid-Decomposition zur Erzeugung künstlicher Texturen mit codierten Parametern einzusetzen. Die Ergebnisse dieser Arbeit belegen, dass bei niedrigen Bitraten eine wesentlich bessere Bildqualität im Vergleich zu HEVC erreichbar ist. Dynamische Texturen lassen sich durch komplexe Bewegungsmuster charakterisieren, z.B. Wellen, sich im Wind bewegende Blätter usw. Aufgrund der hohen Bewegungsdynamik in solchen Inhalten findet die Bewegungskompensation oft keinen guten Prädiktor, so dass B-Bilder teuer zu codieren sind. Bei niedrigen Bitraten werden in den B-Bildern häufig starke Block- und Unschärfeartefakte beobachtet. In unserer Lösung für die Codierung dynamischer Texturen zielen wir auf die Bilder ab, die am anfälligsten für diese Artefakte sind (z.B. Bilder, die in einem hierarchischen Codierverfahren zuletzt codiert werden) und codieren diese Bilder mit reduzierter Auflösung. Auf der Decoderseite werden diese Bilder mit Hochfrequenzsynthese unter Verwendung von Informationen aus benachbarten Bildern in voller Auflösung hochgetastet. Die Ergebnisse liefern einen konkreten Beweis dafür, dass unser Modell das Referenzverfahren JEM bei gleicher Bitrate übertrifft, da auch die Wahrnehmungsqualität beim Betrachten dynamischer Texturen in den meisten Fällen besser ist.

In the context of this thesis we are mainly focused on developing coding tools for static and dynamic textures. Both static and dynamic textures are challenging to code for the current generation video codecs. Former is characterized with high amount of spatial variations which are randomly distributed over the textured region. At low bitrates such a content often shows relatively higher blocking and blurring artefacts as compared to a non-textured content. As a proposed solution to this problem, texture synthesis based on steerable pyramids is used at the decoder side for generating artificial textures using coded parameters. The results provided in this thesis prove that a much better visual quality is achievable at low bitrates when compared to the HEVC. Dynamic textures are characterized with complex motion patterns e.g. water waves, leaves swirling in the wind etc. Due to highly dynamic nature of the motion in such a content, motion compensation often fails to find a good predictor and as a result B-pictures are expensive to code. Under low bit-rate conditions, heavy blocking and blurring artefacts are often observed in the B-pictures. In our proposed solution for the dynamic textures we target those pictures that are most susceptible to these artefacts (i.e. pictures corresponding to two highest temporalids) and code these pictures in a reduced resolution format. At the decoder side these pictures are up-sampled with high-frequency synthesis using information from the neighboring full resolution pictures. The results provide a concrete evidence that our model outperforms JEM at the same rate as our overall perceptual quality is better in majority cases when viewing dynamic textures.

OpenAccess:
PDF
(additional files)