Parametrische Audiokodierung

Methoden der parametrischer Audiokodierung (englisch parametric audio coding) werden zur Audiodatenkompression üblicherweise in niederen und niedrigsten Bitratenbereichen eingesetzt.

Technik

Das Signal wird analysiert und in Objekte zerlegt, die mit Parametern beschrieben werden, aus denen auf Decoderseite wieder ein ähnlich klingendes Audiosignal synthetisiert werden kann.

Die grundlegende Annahme, auf der ein parametrischer Audio-Encoder basiert, ist, dass die meisten Tonsignale und insbesondere Sprache aus Sinustönen und Rauschen synthetisiert werden kann. Ein Encoder gewinnt aus dem Eingangssignal Parameter für Amplitude, Frequenz, Klänge (Grundfrequenz, Amplitude und spektrale Charakteristika der Teile) sowie Rauschen (Amplitude und spektrale Charakteristika) einzelner Sinustöne. Diese Art Encoder kann Audio von typischen 8 kHz Abtastrate in 6 bis 16 Kilobits pro Sekunde codieren.

Ein typischer Codec zieht die Sinuston-Informationen aus den Abtastwerten, indem er eine Kurzzeit-Fourier-Transformation auf die Abtastwerte anwendet, um so den wichtigen harmonischen Inhalt eines Frames zu erkennen. Indem die Sinustöne frameübergreifend gegeneinander abgeglichen werden wird es möglich sie zu gruppieren und Melodieverläufe (harmonic lines) und unterschiedliche Sinustöne zu trennen. Der Abgleich kann Amplituden-, Frequenz- und Phasenunterschiede berücksichtigen. Diese können durch weniger Bits beschrieben werden, als autonome einzelne Klänge benötigen würden. Je länger also ein erkannter Verlauf sich gleichender Klänge ist, desto mehr Bitrate kann insgesamt eingespart werden.

Die Vorgehensweise beim Decoder ist nun, übereinander zu legen. Durch eine Filterung der synthetisierten Teile mit einem Hanning-Filter kann ein sanfter Übergang zwischen ihnen erreicht werden. Das trifft auch auf den Encoder zu, da die Kurzzeit-Fourier-Transformation bessere Ergebnisse erzielt, wenn die Daten mit einem Hanning-Filter vorbehandelt werden.

Nur die Sinustöne zu synthetisieren klingt künstlich und metallisch. Dies lässt sich verdecken, indem der Encoder die synthetisierten Sinustöne vom Eingangssignal abzieht und das Restsignal dann mit einem linearen Filter abgleicht und durch weißes Rauschen ersetzt. Die gewonnenen Parameter können dann quantisiert, codiert und in einen Bitstrom verschränkt werden.

Anwendung

Verfahren wie Spektralband-Replikation (SBR) und parametrisches Stereo sind diesem Prinzip zuzurechnen. Auch die verbreiteten Sprachcodecs der CELP-Familie nutzen derartige Ansätze. Mit Harmonic and Individual Lines and Noise (HILN)/MPEG-4 Parametric Audio Coding existiert ein von der MPEG standardisiertes Verfahren, das rein nach diesem Prinzip arbeitet.

Literatur

Thomas Görne: Tontechnik. Fachbuchverlag Leipzig im Carl Hanser Verlag, München u. a. 2006, ISBN 3-446-40198-9.