h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Low-bit-rate informed source separation using decoder NTF and efficient parameter coding = Niedrige-Bitraten Informierte Quellentrennung unter Verwendung von Decoder NTF und effizienter Parametercodierung



Verantwortlichkeitsangabevorgelegt von Diplom-Ingenieur Christian Rohlfing

ImpressumAachen 2018

Umfang1 Online-Ressource (xiv, 142 Seiten) : Illustrationen


Dissertation, RWTH Aachen University, 2018

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University


Genehmigende Fakultät
Fak06

Hauptberichter/Gutachter
;

Tag der mündlichen Prüfung/Habilitation
2018-04-26

Online
DOI: 10.18154/RWTH-2018-224489
URL: http://publications.rwth-aachen.de/record/724021/files/724021.pdf
URL: http://publications.rwth-aachen.de/record/724021/files/724021.pdf?subformat=pdfa

Einrichtungen

  1. Lehrstuhl und Institut für Nachrichtentechnik (613210)

Inhaltliche Beschreibung (Schlagwörter)
Informed source separation (frei) ; audio object coding (frei) ; nonnegative tensor factorization (frei)

Thematische Einordnung (Klassifikation)
DDC: 621.3

Kurzfassung
Informierte Quellentrennung (Informed Source Separation, ISS) vereinigt die Forschungsbereiche der Audioquellentrennung und der Audiocodierung: ISS benutzt Methoden der Quellentrennung um Audioobjekte (z. B. Aufnahmen von Musikinstrumenten) effizient zu codieren. Die Grundidee besteht darin, den Quellentrennungsschritt durch einen kompakten Satz an Nebeninformationen zu unterstützen, welcher im Encoder extrahiert wird. An dieser Stelle liegen die Aufnahmen der Quellen im Original vor. Die Nebeninformationen werden anschließend zum Decoder übertragen, welcher Quellentrennung gegeben der Mischung durchführt. Diese Arbeit beschäftigt sich mit ISS-Algorithmen, die nichtnegative Faktorisierungsmethoden, z. B. Nichtnegative Tensor Faktorisierung (NTF) zur Kompression der Audioobjekte benutzt. Diese Verfahren sind im Bereich der Quellentrennung etabliert, da sie eine effiziente Beschreibung einzelner Tonereignisse, die häufig in Audioaufnahmen vorkommen, ermöglichen. Die Beiträge der Arbeit werden im Folgenden zusammengefasst: (1) Context-based Adaptive Binary Arithmetic Coding (CABAC) wird an das Feld der Faktorisierungsbasierten ISS angepasst um quantisierte NTF-Parameter mit geeigneten Kontextmodellen zu codieren. Experimente zeigen, dass CABAC effizienter als andere Referenzmethoden codiert. (2) Der ISS-Decoder wird um einen NTF-basierten blinden Quellentrennungsalgorithmus erweitert. Dem Encoder wird ermöglicht, einzelne NTF-Parameter nicht zu übertragen. Diese Parameter werden von der neuen NTF am Decoder mit der Mischung als Beobachtung geschätzt. Es wird experimentell gezeigt, dass diese Erweiterung sehr niedrige Bitraten ermöglicht. Im Extremfall, dass keine Nebeninformationen übertragen wurden, kann der Decoder auf die blinde Quellentrennung zurückgreifen. (3) Um mögliche Fehler des Quellentrennschritts im Decoder zu korrigieren, kann der Encoder Residuen im Zeit-Frequenz-Bereich berechnen. Es wird vorgeschlagen, Residuen unter einer Ratenverzerrungsbedingung mit der Rate-Distortion-Optimized-Quantization (RDOQ) zu quantisieren. Dies erhöht die Separationsqualität bei höheren Bitraten und begrenzt gleichzeitig die zur Übertragung der Residuen notwendige Rate. In Experimenten wird die vorgeschlagene Methode mit anderen Verfahren, die ISS mit Quellcodierung kombinieren, verglichen. Es wird gezeigt, dass das vorgeschlagene Verfahren in mittleren Ratenbereichen besser funktioniert, während dem Decoder eine viel geringere Rechenkomplexität zugeführt wird. Zusammengefasst ermöglichen die in der Arbeit vorgeschlagenen Methoden durch die Nutzung der typischen Struktur von NTF-Parametern zur effizienten Codierung in einen Bitstrom im Encoder und zur Schätzung fehlender Parameter am Decoder sehr niedrige Bitraten. Durch die Einführung der Ratenverzerrungsoptimierung kann die Übertragung von Residuen zwischen den Originalquellen und deren Schätzung im Decoder die Komprimierung zu höheren Raten im Vergleich zum Stand der Technik weiter verbessern.

Informed Source Separation (ISS) unifies the fields of audio source separation and audio coding: ISS uses source separation methods for efficient coding of audio objects (e.g. recordings of musical instruments). The basic idea is that the source separation step is supported by a compact set of side information which is extracted at the encoder side. Here, the original recordings of each source must be at hand. The resulting side information is then transmitted to the decoder which performs source separation from the mixture. This thesis deals with ISS algorithms compressing the audio objects with nonnegative factorization methods such as Nonnegative Tensor Factorization (NTF). These methods are widely used in the source separation community as they allow for an efficient description of single sound events present in audio recordings. The novel contributions are as follows: (1) Context-based Adaptive Binary Arithmetic Coding (CABAC) is adapted to the field of factorization-based ISS for coding the quantized NTF parameters by suitable context models. Experimental results show that CABAC outperforms other existing entropy coding schemes. (2) The decoder is extended to use a complete NTF-based blind source separation algorithm. The encoder can decide to omit the transmission of certain NTF parameters which are then estimated by the proposed NTF in the decoder with the mixture as observation. It is shown experimentally that this extension enables very low bit rates. As an extreme case, the decoder may even fall back to blind source separation without any transmitted side-information. (3) To correct possible errors of the source separation step in the decoder, the encoder can compute residuals in time-frequency domain. The thesis proposes to quantize these residuals under a rate-distortion constraint with Rate-distortion Optimized Quantization (RDOQ). The goal is here to increase the separation performance for higher bit rates while efficiently constraining the rate necessary to transmit the residuals. In experiments, the proposed method is compared to other state-of-the-art coding which combines ISS with source coding. It is shown that the proposed method performs better in medium rate ranges while introducing much less computational complexity to the decoder. In summary, by exploiting the typical structure of NTF parameters for efficiently coding them to a bit stream in the encoder, and for estimating missing parameters at the decoder, the methods proposed in the thesis enable very low bit rates. By introducing rate-distortion optimization, transmission of residuals between the original sources and their estimation at the decoder can further improve the compression towards higher rates, compared to the state of the art.

OpenAccess:
Download fulltext PDF Download fulltext PDF (PDFA)
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online

Sprache
English

Externe Identnummern
HBZ: HT019697797

Interne Identnummern
RWTH-2018-224489
Datensatz-ID: 724021

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Electrical Engineering and Information Technology (Fac.6)
Publication server / Open Access
Public records
Publications database
613210

 Record created 2018-05-24, last modified 2023-04-08