Faltungshall

digitale Nachbildung eines ausgemessenen Raumklangs

Der Faltungshall ist ein akustischer Effekt, mit dem der Nachhall eines realen oder virtuellen Raums simuliert wird. Dazu wird das ursprüngliche Audiosignal durch ein digitales Filter geleitet, das die akustischen Eigenschaften des Raums nachahmt. Der Bereitstellung des Faltungshalls geht in der Regel die akustische Vermessung eines realen Raums voraus. Die Standardmethode dafür heißt Multi Impulse Response, deutsch: mehrfache Impulsantwort, abgekürzt MIR.

Allgemeines

Bearbeiten

Im Gegensatz zum synthetischen Hall, der durch künstlich erzeugte Reflexionen bestimmte Raumtypen nachbildet, hat der Faltungshall eine Probe eines akustischen Raumes als Grundlage. Durch Erzeugen eines Testsignals (zum Beispiel ein Sinussweep, weißes Rauschen oder ein Knall[1]) kann der individuelle Nachhall jedes beliebigen Raumes als Impulsantwort mithilfe eines Mikrofons bestimmt werden. Ist als Ergebnis ein Stereosignal gewünscht, das das unterschiedliche Reflexionsverhalten des Raums aus verschiedenen Richtungen abbildet, muss ein Stereomikrofon verwendet werden.[2] Es ergibt sich ein typischer Signalverlauf, der auch als „Fingerabdruck“ des individuellen Raumklangs bezeichnet wird. Mit diesem individuellen Raumklang kann dann jedes Audiosignal versehen werden, welches noch keinerlei Reflexionen enthält. Das Audiosignal klingt dann nach der Bearbeitung so, als sei es am Ort der Aufnahme mitsamt realer Reflexionen aufgenommen worden. Die Hörperspektive entspricht damit zwangsläufig immer der Mikrofonposition bei der Aufnahme der Impulsantworten und ist zudem abhängig von dem gewählten Stereofonieverfahren. Der Ort der gehörten Schallquelle entspricht dem der ursprünglichen Schallquelle des aufgenommenen Schallereignisses.

Vorteile sind ein realistischer Klang sowie die kostenlose Verfügbarkeit zahlreicher Impulsantworten im Internet. Außerdem ist die Technik billiger als die alternativen High-End-Effektgeräte oder die Aufnahme vor Ort. Zusätzlich können so auch Räumlichkeiten simuliert werden, die real überhaupt nicht existieren (zum Beispiel in Filmen).

Ein Nachteil ist, dass VST-basierte Plug-ins sehr viel CPU-Leistung brauchen. Zudem sind Impulsantworten starr und nicht editierbar (zum Beispiel Position im Raum). Leichte Latenzen (individuell, je nach Datenreduktion bzw. Näherungsgrad und Rechenleistung) sind ein weiterer Negativaspekt.

Grundprinzip

Bearbeiten
 
Die Umrechnung zwischen Ortsraum und Frequenzraum per FFT und IFFT

Jeder Klang bzw. jedes Audiosignal kann als ein Gemisch aus einem oder mehreren Sinustönen (Einzelfrequenzen) gesehen werden. Das Audiosignal ist eine Gesamtschwingung.

Der Klang eines Audiosignals, beispielsweise der eines Instrumentes, resultiert aus dem momentanen Vorhandensein all seiner Frequenzen zum jeweiligen Zeitpunkt. Diese Frequenzen haben alle je eine bestimmte Schalldruck-Amplitude mit einer bestimmten Phasenlage.

Durch die schnelle Fourier-Transformation (FFT) kann ein Zeitpunkt eines Audiosignals (Ortsraum) im Frequenzraum dargestellt werden. Umgekehrt kann jede Konstellation im Frequenzraum durch die Inverse FFT (IFFT) einen Zeitpunkt eines Audiosignals darstellen. Jede Veränderung im Frequenzraum (zum Beispiel Veränderung der Amplitude einer Frequenz) hat, durch die IFFT auf den Ortsraum übertragen, eine typische Klangveränderung zur Folge.

Rein theoretisch wäre die Multiplikation der Frequenzbilder im Frequenzraum nicht nötig. Man könnte stattdessen jeden Zeitpunkt des zu verhallenden Signals mit jedem Zeitpunkt der Impulsantwort multiplizieren. Die Rechenmethode dafür heißt Faltung:

 .

Da die Berechnung auf digitaler Ebene erfolgt, sind beide Signale (zu Verhallendes und Impulsantwort) diskrete Signale. Diskret bedeutet, sie haben eine endliche Anzahl an Werten. Sie bestehen aus einer endlichen Anzahl sogenannter Audio-Samples. Damit ist auch die Anzahl an Berechnungsvorgängen begrenzt. Bei einer Samplingfrequenz (Abtastrate) von 44,1 kHz hat jeder Audiokanal 44.100 Samples pro Sekunde. Die Faltung auf diskreter Ebene ist definiert durch

 .

Diese Faltung ist aber rechenaufwändig. Daher werden die Signale nicht wie hier dargestellt im Ortsraum berechnet, sondern durch Multiplikationen im Frequenzraum.

 
Sowohl für den Gesamtverlauf (Ortsraum) des zu verhallenden Signals, als auch für den der Impulsantwort werden für jeden Zeitpunkt per FFT die Frequenzspektren gebildet.

Beim Faltungshall wird jeder Zeitpunkt des zu verhallenden Signals in den Frequenzraum übertragen. Ebenso liegt jeder Zeitpunkt der sogenannten Impulsantwort (siehe Einleitung) im Frequenzraum vor. Im Frequenzraum wird jeder Zeitpunkt des zu verhallenden Signals mit jedem Zeitpunkt der Impulsantwort multipliziert und das Ergebnis wieder (an der zeitlich richtigen Position) per IFFT in den Ortsraum übertragen. Das Ergebnis ist wieder ein Verlauf im Ortsraum: das verhallte Signal.

Auf digitaler Ebene bedeutet das, jedes Sample des ursprünglichen Audiosignals wird mit jedem Sample der Impulsantwort skaliert.

Genau wie bei den beiden Ausgangssignalen besteht das neue Signal aus einer individuellen Funktion für jeden Zeitpunkt. Ein Klang bzw. ein Audio-Gesamtsignal ergibt sich nicht aus einer periodischen Funktion. Es weist für jeden Zeitpunkt eine andere mathematische Funktion auf. Darum ist für die Faltung dieser relativ hohe Rechenaufwand nötig, bei dem jeder Zeitpunkt (bzw. jedes Sample) des einen Signals mit jedem Sample des anderen Signals verrechnet werden muss.

 
Jeder Zeitpunkt des einen Signals wird mit jedem Zeitpunkt des anderen Signals verrechnet und das Ergebnis per IFFT wieder in den Ortsraum übertragen.

Rendering und Datenreduktion

Bearbeiten

Die Faltungshall-Berechnung kann durch Echtzeitberechnung (Echtzeit-Effekt) stattfinden oder durch Rendering. Echtzeitberechnung bedeutet, das verhallte Signal wird während des Abspielens errechnet. Wegen der großen Rechenkapazität ergibt sich dabei immer eine bestimmte Verzögerung (Latenz). Rendering bedeutet, das Hallsignal bzw. dessen Audiodatei wird offline berechnet. Das Abspielen ist dann latenzfrei möglich.

Wenn beispielsweise die Impulsantwort, also die Nachhallzeit, fünf Sekunden beträgt und das zu verhallende Signal (zum Beispiel ein Instrument) eine Minute dauert, beträgt bei einer Abtastrate von 44,1 kHz die Anzahl an Faltungsoperationen für ein Stereosignal:

60 × 44.100 × 5 × 44.100 × 2 = 1.166.886.000.000

Das sind über eine Billion Verrechnungen zweier Frequenzspektren für eine Minute Stereo eines verhallten Signals.

Bei den heutigen Rechenleistungen kann Faltungshall bei der Echtzeitberechnung immer nur genähert werden, sonst wäre die Latenz inakzeptabel lang. Selbst das Rendering erfolgt heute wegen der großen Rechenkapazitäten nur in Annäherung. Die bisher genaueste Simulation bietet die MIR-Anwendung der Vienna Symphonic Library. Dabei werden Instrumente eines Orchesters je einzeln verhallt. Die individuelle Abstrahlcharakteristik jedes einzelnen Instrumentes findet dabei Berücksichtigung.

Siehe auch

Bearbeiten

Literatur

Bearbeiten
Bearbeiten

Einzelnachweise

Bearbeiten
  1. Guido Helbling: Impulsantwort Erstellen. In: avosound.com. 20. Juni 2017, abgerufen am 17. Februar 2022.
  2. Guido Helbling: Faltungshall für Mono und Stereo. In: avosound.com. 20. Juni 2017, abgerufen am 17. Februar 2022.