Grundlagen

Wir wissen bereits aus Teil 1, dass ein analoges Signal bei der Digitalisierung in bestimmten Zeitabständen abgetastet wird. Zu jedem dieser Zeitpunkte wird der Pegel des Signals gemessen und als Zahlenwert dargestellt. Je häufiger diese Abtastung erfolgt, desto schneller können Änderungen der Amplitude registriert werden, was nichts anderes bedeutet, als dass höhere Frequenzen dargestellt werden können. Die höchste darstellbare Audio-Frequenz ergibt sich nach dem Shannon'schen Abtasttheorem als die Hälfte der Abtastfrequenz. Bei 44,1 kHz könnte das Audiosignal theoretisch bis 22,05 kHz reichen. Sofern höhere Frequenzen als die halbe Sampling-Frequenz (auch Nyquist-Frequenz genannt) im Audiosignal vorkommen, entstehen unangenehme, nichtlineare Verzerrungen, die als Aliasing (von "alias", lat., der andere) bezeichnet werden. Daher ist sicherzustellen, dass vor der A/D-Wandlung tatsächlich keine solchen Frequenzen mehr im Spektrum vorhanden sind. 

Zu jedem A/D-Wandler gehört daher ein Anti-Aliasing-Filter, das aufgrund seiner endlichen Flankensteilheit aber bereits vor dem Wert von 22,05 kHz mit der Absenkung beginnen muss. Wenn man davon ausgeht, dass der hörbare Audiobereich bis 20 kHz reicht und gänzlich unbeeinflusst bleiben soll, ergibt sich die Forderung nach dem idealen Filter derart, dass die Flanke erst oberhalb von 20 kHz einsetzt und bis 22,05 kHz so weit gefallen ist, dass Pegel im darüber liegenden Frequenzbereich vernachlässigbar klein sind. Ein solches Filter ist mit herkömmlicher Technik aber kaum zufriedenstellend zu konstruieren, daher ist ein Kompromiss zu schließen: Entweder legt man das Filter sehr steilflankig aus, so dass die Absenkung erst oberhalb von 20 kHz beginnt, oder aber man wählt eine flachere Flanke und beginnt schon deutlich unterhalb von 20 kHz mit der Absenkung. Im ersten Fall wird das Filter durch eine hohe Welligkeit im hörbaren Bereich eine Verfälschung erzeugen, im zweiten Fall ergibt sich die Verfälschung durch die Filterflanke selbst. Erst die neueren Entwicklungen digitaler Filter zeigen Ergebnisse, bei denen die Forderungen nach weitem Durchlassbereich und geringer Restwelligkeit gleichermaßen zufriedenstellend gelöst werden. 
 

Das Frequenzspektrum eines natürlichen Audiosignals fällt zwar zu den hohen Frequenzen hin ab, enthält aber meist Bestandteile, die über der halben Abtastrate liegen. Um diese zu entfernen, wird ein steilflankiges Filter benötigt, das das Audiosignal nicht beeinflusst. Reale Filter weisen jedoch eine weniger steile Filterflanke sowie Welligkeit im Übergangsbereich auf. Bei doppelter Samplingfrequenz entschärft sich die Problematik, weil die Flanke sehr flach ausfallen und das Filter wesentlich einfacher konstruiert werden kann.

96 kHz gegen Nyquist

Bei einer Erhöhung der Samplingfrequenz auf 96 kHz steigt die Nyquist-Frequenz auf 48 kHz an. Dadurch kann die Eckfrequenz des Filters beispielsweise auf 24 kHz eingestellt werden, wodurch einerseits der Audio-Frequenzgang erweitert wird und andererseits zwischen eben diesen 24 kHz und der Nyquist-Frequenz von 48 kHz eine volle Oktave für die Filterflanke zur Verfügung steht. Hier wird die Problematik der etwas "engen" Auslegung bisheriger Samplingfrequenzen also deutlich entschärft. Andererseits muss man zugeben, dass heutige Digitalfilter so hervorragend klingen, dass der Vorteil flacher auszulegender Filterflanken nicht der wichtigste Grund für eine Umstellung des Formates ist.

Und wie steht es um die Erweiterung des Audiobereichs selbst? Schon im Beispiel der flachen Filterflanke blieben Frequenzen bis 24 kHz unverfälscht, und bei steilerer Auslegung des Filters ist auch die lineare Wiedergabe von Frequenzen bis beispielsweise 40 kHz kein Problem. Zwar reicht der Hörbereich des Menschen nur bis 20 kHz, und selbst das ist für die meisten, die dem Säuglingsalter bereits entwachsen sind, eine eher euphorisch denn zu gering gewählte Angabe. Allerdings gibt es Stimmen, die behaupten, über der Hörgrenze liegende Spektralanteile trügen dennoch zur Wahrnehmung bei. Häufig angeführt wird das sogenannte Residuumhören, also der Effekt, der beispielsweise einen tiefen Kontrabass-Ton aufgrund seiner in der Aufnahme enthaltenen Oberwellen auch dann noch hörbar werden lässt, wenn der Grundton selbst fehlt. Da sich hierbei die Oberwellen jedoch im hörbaren Bereich befinden, sind beide Effekte nicht wirklich vergleichbar, und so gibt es ebenso viele Meinungen, die besagen, dass die Erweiterung des Audiobereichs auf über 20 kHz nichts bringe. Aus diesen Gründen wurden bereits sehr viele Hörtests durchgeführt, die häufig zu einem sehr interessanten Schluss führten: Ob die Testhörer wirklich in der Lage waren, Aufnahmen mit 44,1 kHz und 96 kHz zu unterscheiden, konnte nicht abschließend geklärt werden, da die klanglichen Unterschiede der verschiedenen Wandler deutlich größer waren, und zwar unabhängig von der eingesetzten Samplingrate. Diese Ergebnisse zeigen, dass auch die Erweiterung des Audiobereichs nicht der ausschlaggebende Grund sein kann, von den bisherigen 44,1 kHz auf 96 kHz umzusteigen. 

96 kHz und Equalizer

Digitale Equalizer arbeiten mit Algorithmen, die zur Berechnung eines einzelnen Sample-Wertes auch die benachbarten mit einbeziehen. In einem 96-kHz-Signal stehen in einem gleich breiten Zeitfenster aber viel mehr benachbarte Werte zur Verfügung, wodurch der Algorithmus präziser wird. Außerdem gelingt es mit der höheren Samplingrate leichter, das Ziel analogen Klangs auch auf der digitalen Ebene zu erreichen. Immer wieder hoert man, dass analoge Equalizer warm und musikalisch klingen, digitale dagegen kalt und hart. Und wer sich nicht die Mühe macht, einige Zusammenhänge näher zu betrachten, wird wohl noch bis in alle Ewigkeit das Märchen von den bösen digitalen und guten analogen Konzepten glauben. Zwar ist es in der Tat sehr schwierig, einen gut klingenden Digital-Equalizer zu bauen, dennoch ist es möglich und wird durch einige inzwischen auf dem Markt befindliche Lösungen auch bewiesen.

Während ein analoger Equalizer mit den Filterkurven seiner Bänder bis weit über die Hörgrenze hinausreicht, kann ein digitales Konzept aufgrund des Abtasttheorems von Nyquist nur Frequenzen bis zur halben Samplingfrequenz wiedergeben. Das ist nicht schlimm, denn wie wir weiter oben schon festgestellt haben, hoert das menschliche Ohr im darüber liegenden Frequenzbereich ohnehin nichts mehr. Der ideale digitale Equalizer weist daher Filterkurven auf, die dem analogen Vorbild exakt gleichen, jedoch bei der halben Samplingfrequenz abrupt enden.

In der Realität werden digitale Equalizer als sogenannte IIR-Filter (Infinite Impulse Response) ausgelegt. Dabei wird jedoch nicht das analoge Spektrum zwischen Null und der halben Samplingfrequenz auf eben diesen Bereich in der digitalen Ebene abgebildet, sondern es wird das Gesamtspektrum bis zu unendlich hohen Frequenzen auf den endlichen Bereich auf digitaler Ebene projiziert. Folglich ergibt sich eine Stauchung der Bandbreiten und Verschiebung der Mittenfrequenzen bei der digitalen Simulation. Es ist nicht verwunderlich, dass ein solcher Equalizer "hart" klingt, denn wenn man am analogen Pendant den Q-Faktor erhöht, stellt sich der gleiche Klangcharakter ein.

Abhilfe schafft ein Algorithmus, der die Verschiebung der Mittenfrequenzen und Stauchung der Filterkurven korrigiert. Während das im Bass- und Mittenbereich sehr gut funktioniert, müssen im hohen Frequenzbereich Kompromisse eingegangen werden, um einerseits der Filterkurve des analogen Vorbilds möglichst nahe zu kommen, andererseits aber den prinzipbedingten Abfall der Kurve auf den Wert Null zu realisieren. Typisch für derartige Equalizerkonzepte ist ein sehr analoger Klang, der sich allerdings bei den Bändern mit hoch angesetzten Mittenfrequenzen noch immer vom Original unterscheidet. Erst bei doppelter Samplingfrequenz und damit doppelter Audiobandbreite ergibt sich die Situation, das analoge Modell auch über den hörbaren Bereich hinaus simulieren und somit innerhalb dieses Bereiches ein exaktes Abbild schaffen zu können. Derartig aufgebaute Equalizer klingen wie ihre analogen Vorbilder und übertreffen diese sogar in der Signalqualität, da kaskadierte Analogstufen stets mit Rauschen zu kämpfen haben. Die doppelte Samplingfrequenz lässt sich bei sogenannten Double Sampling Equalizern auch intern erzeugen, so dass die Ein- und Ausgangssignale weiterhin mit 44,1 oder 48 kHz getaktet sind. Insofern können solche Equalizer auch dann in die digitale Signalkette Einzug halten, wenn diese nicht durchgängig mit der hohen Samplingrate arbeitet.

96 kHz und Wortbreitenreduzierung

Wie wir im vorangegangenen Teil gesehen haben, stellt die Signalverarbeitung mit einer Wortbreite von 24 Bit und die anschließende Konvertierung in das CD-Format mit 16 Bit eine wichtige Grundlage heutiger Produktionstechniken dar. Bei der Wortbreitenreduktion arbeitet man oft mit einem geringen Zusatz von Rauschen, dem sogenannten Dither-Rauschen. Auch hier haben 96-kHz-Signale die Nase vorn, denn die Rauschleistung verteilt sich auf ein doppelt so breites Band, von dem nur eine Hälfte hörbar ist. Das wahrgenommene Rauschen verringert sich dadurch um 3 dB.

Noch wesentlich weiter reichen die Vorteile beim Noiseshaping. Hier geht es darum, die Rauschleistung zu einem möglichst großen Teil im Band zwischen Hörgrenze und Nyquist-Frequenz anzuordnen. Bei einer Abtastrate von 44,1 kHz ist dieses Band sehr schmal, und eine hohe Rauschleistung lässt sich nur mit starken Pegelerhöhungen realisieren, wodurch die Grenzen des Möglichen sehr schnell erreicht sind. In einer 96-kHz-Umgebung verhält es sich jedoch ganz anders, denn hier steht der weite Bereich zwischen 20 und 48 kHz zur Verfügung, wodurch bei geschickter Filterung der größte Teil des Rauschens in den unhörbaren Bereich verlagert werden kann.

Eine charakteristische Groesse des beim Dithering zugegebenen Rauschens ist seine Leistung, die man sich als Fläche unter der Frequenzkurve vorstellen kann. Statt einer gleichmäßigen Verteilung über den Frequenzbereich versucht man beim Noiseshaping, einen möglichst großen Teil der Fläche und damit der Leistung in den hohen Frequenzbereich zu legen, wodurch der Anteil im hörbaren Bereich geringer wird. In einer 96-kHz-Umgebung ergibt sich ein solcher Zusammenhang bereits bei gleichverteiltem Rauschen, da ohnehin mehr als die Hälfte der Rauschleistung im unhörbaren Bereich zwischen 20 und 48 kHz liegt. Setzt man hier zusätzlich Noiseshaping-Verfahren ein, gelingt es relativ leicht, den weitaus größten Bereich der Rauschleistung in unhörbare Bereiche zu verlagern.

96 kHz und der Haas-Effekt

Beim Richtungsempfinden einer Stereo-Aufnahme unterscheiden wir zwischen der Intensitäts-Stereofonie und der Laufzeit-Stereofonie. Erstere beruht auf unterschiedlichen Pegeln eines Signals in beiden Kanälen und wird im Studio mit den Panorama-Reglern des Mischpults erzeugt. Bei natürlichen Stereoaufnahmen, insbesondere bei Nutzung der klassischen Zwei-Mikrofon-Technik, ergibt sich das Richtungsempfinden jedoch aus den Laufzeitunterschieden. Nach dem Gesetz der ersten Wellenfront, auch Haas-Effekt genannt, orten wir ein Signal aus der Richtung, aus der der Schall zuerst unser Gehör erreicht - und zwar auch dann, wenn die Lautstärke an beiden Ohren gleich ist.

Nur wenig aus der Stereomitte verschobene Signale erzeugen Laufzeitunterschiede von nur wenigen Mikrosekunden. Der Abstand zweier Samples eines 44,1-kHz-Signales beträgt jedoch eine 44.100stel Sekunde, also ca. 23 Mikrosekunden. Vielfach hört man die Meinung, dass die höhere Samplingrate mit ihrem kürzeren zeitlichen Abstand zwischen zwei Samples besser geeignet sei, solche geringen Laufzeitunterschiede wiederzugeben. Allerdings entbehrt diese Theorie jeglicher Grundlage, denn in einem digitalen Signal können sehr wohl kürzere Zeitabstände dargestellt werden, als der Abstand zweier Samples beträgt. Die Phasenlage eines digitalen Audiosignals ist nämlich wertkontinuierlich, da sich die Quantisierung und die daraus ergebenden Zahlenwerte immer nur auf die jeweils aktuelle Amplitude in einem diskreten Zeitraster erstreckt. Nach der Rekonstruktion bei der D/A-Wandlung ergibt sich daher neben der ursprünglichen Wellenform auch die ursprüngliche Phasenlage des Signals. Allein die Erhöhung der Samplingfrequenz bringt hier folglich keinen Vorteil.  

Fazit

Aus Sicht der Aliasing-Problematik sind wir mit den heute üblichen Abtastfrequenzen bereits gut bedient. Die Erhöhung auf 96 kHz bringt allenfalls leichte Verbesserungen, profitiert allerdings gleichzeitig von anderen Vorteilen wie besseren Equalizeren und erweiterten Möglichkeiten in der Nachbearbeitung. Wer bei seinen Produktionen also auf höchste Audioqualität Wert legt, wird die Vorteile des 96-kHz-Formats zu schätzen wissen.

Wenn die Nachbearbeitung mit 96 kHz durchgeführt wird und alle Schritte, die von der hohen Samplingrate profitieren, abgeschlossen sind, spricht allerdings nicht viel gegen die anschließende Konvertierung auf 44,1 kHz. Ob daher 96 kHz auch für Tonträger und Consumer-Abspielgeräte sinnvoll sind, bleibt fraglich. In jedem Fall ist die Erhöhung der Auflösung auf 24 Bit weit wichtiger als die höhere Samplingrate.