3D geometry for 2D video compression

Bakhshi Golestani, Hossein; Ohm, Jens-Rainer; Bull, David

doi:HT021381846

3D geometry for 2D video compression

Bakhshi Golestani, Hossein^RWTH*

2021 & 2022

Verantwortlichkeitsangabevorgelegt von Hossein Bakhshi Golestani, M.Sc.

ImpressumAachen : RWTH Aachen University 2021

Umfang1 Online-Ressource : Illustrationen

Dissertation, Rheinisch-Westfälische Technische Hochschule Aachen, 2021

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2022

Genehmigende Fakultät
Fak06

Hauptberichter/Gutachter
Ohm, Jens-Rainer (Thesis advisor)^RWTH* ; Bull, David (Thesis advisor)

Tag der mündlichen Prüfung/Habilitation
2021-12-08

Online
DOI: 10.18154/RWTH-2022-04921
URL: https://publications.rwth-aachen.de/record/846867/files/846867.pdf

Einrichtungen

Lehrstuhl und Institut für Nachrichtentechnik (613210)

Inhaltliche Beschreibung (Schlagwörter)
3D geometry (frei) ; 3D reconstruction (frei) ; SLAM (frei) ; VVC (frei) ; mesh compression (frei) ; video coding (frei)

Thematische Einordnung (Klassifikation)
DDC: 621.3

Kurzfassung
Der Videodatenverkehr, einschließlich Video-Streaming und Downloads, macht mehr als 80 % des gesamten Internetdatenverkehrs aus. Angesichts der wachsenden Nachfrage sowohl nach hochwertigen Videoinhalten, z. B. für Videoanrufe, E-Learning, Unterhaltung, als auch nach immersiven Technologien (z. B. 360-Videos, erweiterte Realität) ist die Entwicklung effizienterer Videokomprimierungstechnologien unumgänglich. Die meisten 2D-Videos wurden ursprünglich in einer 3D-Umgebung aufgenommen; daher kann die Projektion von 2D-Frames zurück in den 3D-Raum und die Nutzung der dortigen Informationen einen höheren Codierungsgewinn bieten. Diese Dissertation hat ein effizientes 2D-Videokompressionsverfahren entwickelt, das die 3D-Szenengeometrie (d.h. Punktwolke oder Mesh) und die Kamerabewegung schätzt und eine Vorhersage für zukünftige, noch nicht gesehene Bilder macht. Die gerenderte Vorhersage wird als neues Referenzbild für den Bewegungsausgleich verwendet. Diese Methode kann auf jedes Videocodierungsszenario mit Kamerabewegungen angewendet werden, z. B. Smartphones, autonomes Fahren, Überwachungssysteme usw. Außer einer monokularen Kamera ist kein besonderer Sensor (wie Tiefensensor, Trägheitsmesssensoren oder GPS) erforderlich; zusätzliche Sensoren erhöhen jedoch den Codierungsgewinn. Die Vorteile der vorgeschlagenen Technologie wurden in einer international betriebenen Testumgebung demonstriert. Diese Vorteile werden durch die Einführung dieser Technologie in die internationale Standardisierung allen Nutzern auf der Welt zugänglich gemacht, und Im Vergleich zum VVC-Standard (Versatile Video Coding) wurden etwa 3 % der Bitrate eingespart.

Video data traffic, including video streaming and downloads, accounts for more than 80% of all consumer internet traffic. Considering the growing demand for both high-quality video content, e.g., for video calls, e-learning, or entertainment as well as for immersive technologies (e.g., 360 videos, extended reality), developing more efficient video compression technologies is inevitable. Most 2D videos have initially been captured in a 3D environment; thus, projecting 2D frames back into 3D space and exploiting information there can provide higher coding gain. This dissertation has developed an efficient 2D video compression method by estimating 3D scene geometry (i.e., point cloud or mesh) and camera motion and rendering a prediction for future un-seen frames. The rendered prediction is used as a new reference picture for motion compensation. This method can be applied to every video coding scenario with camera motion, e.g., smartphones, autonomous driving, surveillance systems, etc. No particular sensor (like depth sensor, inertial measurement sensors, or GPS) is required but a monocular camera; however, extra sensors increase the coding gain. The benefits of the proposed video coding method have been demonstrated in an internationally maintained testing environment and showed around 3% bit rate saving compared to VVC (Versatile Video Coding) standard.

OpenAccess:
PDF
(additional files)