|
Grundlagen
Wir wissen bereits aus Teil 1,
dass ein analoges Signal bei der Digitalisierung in bestimmten Zeitabständen
abgetastet wird.
Zu jedem dieser Zeitpunkte wird der Pegel des Signals gemessen und als Zahlenwert
dargestellt. Je häufiger diese Abtastung erfolgt, desto schneller können Änderungen
der
Amplitude registriert werden, was nichts anderes bedeutet, als dass höhere Frequenzen
dargestellt werden können. Die höchste darstellbare Audio-Frequenz ergibt sich nach dem
Shannon'schen Abtasttheorem als die Hälfte der Abtastfrequenz. Bei 44,1 kHz
könnte das
Audiosignal theoretisch bis 22,05 kHz reichen. Sofern höhere Frequenzen als die halbe
Sampling-Frequenz (auch Nyquist-Frequenz genannt) im Audiosignal vorkommen, entstehen
unangenehme, nichtlineare Verzerrungen, die als Aliasing (von "alias", lat., der
andere) bezeichnet werden. Daher ist sicherzustellen, dass vor der A/D-Wandlung
tatsächlich keine solchen Frequenzen mehr im Spektrum vorhanden sind.
Zu jedem
A/D-Wandler gehört daher ein Anti-Aliasing-Filter, das aufgrund seiner endlichen
Flankensteilheit aber bereits vor dem Wert von 22,05 kHz mit der Absenkung beginnen muss.
Wenn man davon ausgeht, dass der hörbare Audiobereich bis 20 kHz reicht und
gänzlich unbeeinflusst bleiben soll, ergibt sich die Forderung nach dem idealen Filter derart,
dass die Flanke erst oberhalb von 20 kHz einsetzt und bis 22,05 kHz so weit gefallen ist, dass
Pegel im darüber liegenden Frequenzbereich vernachlässigbar klein sind. Ein solches
Filter ist mit herkömmlicher Technik aber kaum zufriedenstellend zu konstruieren, daher
ist ein Kompromiss zu schließen: Entweder legt man das Filter sehr steilflankig aus, so
dass die Absenkung erst oberhalb von 20 kHz beginnt, oder aber man wählt eine flachere
Flanke und beginnt schon deutlich unterhalb von 20 kHz mit der Absenkung. Im ersten Fall
wird das Filter durch eine hohe Welligkeit im hörbaren Bereich eine Verfälschung
erzeugen, im zweiten Fall ergibt sich die Verfälschung durch die Filterflanke selbst.
Erst die neueren Entwicklungen digitaler Filter zeigen Ergebnisse, bei denen die
Forderungen nach weitem Durchlassbereich und geringer Restwelligkeit gleichermaßen
zufriedenstellend gelöst werden.
Das Frequenzspektrum eines natürlichen
Audiosignals fällt zwar zu den hohen Frequenzen hin ab, enthält aber meist
Bestandteile, die über der halben Abtastrate liegen. Um diese zu entfernen, wird ein
steilflankiges Filter benötigt, das das Audiosignal nicht beeinflusst. Reale Filter
weisen jedoch eine weniger steile Filterflanke sowie Welligkeit im Übergangsbereich
auf.
Bei doppelter Samplingfrequenz entschärft sich die Problematik, weil die Flanke sehr
flach ausfallen und das Filter wesentlich einfacher konstruiert werden kann.
96 kHz gegen Nyquist
Bei einer Erhöhung der
Samplingfrequenz auf 96 kHz steigt die Nyquist-Frequenz auf 48 kHz an. Dadurch kann die
Eckfrequenz des Filters beispielsweise auf 24 kHz eingestellt werden, wodurch einerseits
der Audio-Frequenzgang erweitert wird und andererseits zwischen eben diesen 24 kHz und der
Nyquist-Frequenz von 48 kHz eine volle Oktave für die Filterflanke zur Verfügung steht.
Hier wird die Problematik der etwas "engen" Auslegung bisheriger Samplingfrequenzen also deutlich
entschärft. Andererseits muss man zugeben, dass heutige
Digitalfilter so hervorragend klingen, dass der Vorteil flacher auszulegender
Filterflanken nicht der wichtigste Grund für eine Umstellung des Formates ist.
Und wie steht es um die Erweiterung des
Audiobereichs selbst? Schon im Beispiel der flachen Filterflanke blieben Frequenzen bis 24
kHz unverfälscht, und bei steilerer Auslegung des Filters ist auch die lineare Wiedergabe
von Frequenzen bis beispielsweise 40 kHz kein Problem. Zwar reicht der Hörbereich
des
Menschen nur bis 20 kHz, und selbst das ist für die meisten, die dem Säuglingsalter
bereits entwachsen sind, eine eher euphorisch denn zu gering gewählte Angabe. Allerdings
gibt es Stimmen, die behaupten, über der Hörgrenze liegende Spektralanteile
trügen dennoch zur Wahrnehmung bei. Häufig angeführt wird das sogenannte
Residuumhören, also
der Effekt, der beispielsweise einen tiefen Kontrabass-Ton aufgrund seiner in der Aufnahme
enthaltenen Oberwellen auch dann noch hörbar werden lässt, wenn der Grundton selbst
fehlt. Da sich hierbei die Oberwellen jedoch im hörbaren Bereich befinden, sind beide
Effekte nicht wirklich vergleichbar, und so gibt es ebenso viele Meinungen, die besagen,
dass die Erweiterung des Audiobereichs auf über 20 kHz nichts bringe. Aus diesen
Gründen wurden bereits sehr viele Hörtests durchgeführt, die häufig zu einem sehr interessanten
Schluss führten: Ob die Testhörer wirklich in der Lage waren, Aufnahmen mit 44,1 kHz und
96 kHz zu unterscheiden, konnte nicht abschließend geklärt werden, da die klanglichen
Unterschiede der verschiedenen Wandler deutlich größer waren, und zwar unabhängig
von
der eingesetzten Samplingrate. Diese Ergebnisse zeigen, dass auch die Erweiterung des
Audiobereichs nicht der ausschlaggebende Grund sein kann, von den bisherigen 44,1 kHz auf
96 kHz umzusteigen.
96
kHz und Equalizer Digitale Equalizer arbeiten mit Algorithmen,
die zur Berechnung eines einzelnen Sample-Wertes auch die benachbarten mit einbeziehen. In
einem 96-kHz-Signal stehen in einem gleich breiten Zeitfenster aber viel mehr benachbarte
Werte zur Verfügung, wodurch der Algorithmus präziser wird. Außerdem gelingt es mit der
höheren Samplingrate leichter, das Ziel analogen Klangs auch auf der digitalen Ebene zu
erreichen. Immer wieder hoert man, dass analoge Equalizer warm und musikalisch klingen,
digitale dagegen kalt und hart. Und wer sich nicht die Mühe macht, einige Zusammenhänge
näher zu betrachten, wird wohl noch bis in alle Ewigkeit das Märchen von den
bösen digitalen und guten analogen Konzepten glauben. Zwar ist es in der Tat sehr schwierig,
einen gut klingenden Digital-Equalizer zu bauen, dennoch ist es möglich und wird durch
einige inzwischen auf dem Markt befindliche Lösungen auch bewiesen.
Während ein analoger Equalizer mit
den Filterkurven seiner Bänder bis weit über die Hörgrenze hinausreicht, kann ein
digitales Konzept aufgrund des Abtasttheorems von Nyquist nur Frequenzen bis zur halben
Samplingfrequenz wiedergeben. Das ist nicht schlimm, denn wie wir weiter oben schon
festgestellt haben, hoert das menschliche Ohr im darüber liegenden Frequenzbereich ohnehin
nichts mehr. Der ideale digitale Equalizer weist daher Filterkurven auf, die dem analogen
Vorbild exakt gleichen, jedoch bei der halben Samplingfrequenz abrupt enden.
In der Realität werden digitale
Equalizer als sogenannte IIR-Filter (Infinite Impulse Response) ausgelegt. Dabei wird
jedoch nicht das analoge Spektrum zwischen Null und der halben Samplingfrequenz auf eben
diesen Bereich in der digitalen Ebene abgebildet, sondern es wird das Gesamtspektrum bis
zu unendlich hohen Frequenzen auf den endlichen Bereich auf digitaler Ebene projiziert.
Folglich ergibt sich eine Stauchung der Bandbreiten und Verschiebung der Mittenfrequenzen
bei der digitalen Simulation. Es ist nicht verwunderlich, dass ein solcher Equalizer
"hart" klingt, denn wenn man am analogen Pendant den Q-Faktor erhöht, stellt
sich der gleiche Klangcharakter ein.
Abhilfe schafft ein Algorithmus,
der die Verschiebung der Mittenfrequenzen und Stauchung der Filterkurven korrigiert.
Während das im Bass- und Mittenbereich sehr gut funktioniert, müssen im hohen
Frequenzbereich Kompromisse eingegangen werden, um einerseits der Filterkurve des analogen
Vorbilds möglichst nahe zu kommen, andererseits aber den prinzipbedingten Abfall der
Kurve auf den Wert Null zu realisieren. Typisch für derartige Equalizerkonzepte ist ein
sehr analoger Klang, der sich allerdings bei den Bändern mit hoch angesetzten
Mittenfrequenzen noch immer vom Original unterscheidet. Erst bei doppelter
Samplingfrequenz und damit doppelter Audiobandbreite ergibt sich die Situation, das
analoge Modell auch über den hörbaren Bereich hinaus simulieren und somit innerhalb
dieses Bereiches ein exaktes Abbild schaffen zu können. Derartig aufgebaute Equalizer
klingen wie ihre analogen Vorbilder und übertreffen diese sogar in der Signalqualität,
da kaskadierte Analogstufen stets mit Rauschen zu kämpfen haben. Die doppelte
Samplingfrequenz lässt sich bei sogenannten Double Sampling Equalizern auch intern
erzeugen, so dass die Ein- und Ausgangssignale weiterhin mit 44,1 oder 48 kHz getaktet
sind. Insofern können solche Equalizer auch dann in die digitale Signalkette Einzug
halten, wenn diese nicht durchgängig mit der hohen Samplingrate arbeitet.
96 kHz und Wortbreitenreduzierung
Wie wir im vorangegangenen Teil
gesehen haben, stellt die Signalverarbeitung mit einer Wortbreite von 24 Bit und die
anschließende Konvertierung in das CD-Format mit 16 Bit eine wichtige Grundlage heutiger
Produktionstechniken dar. Bei der Wortbreitenreduktion arbeitet man oft mit einem geringen
Zusatz von Rauschen, dem sogenannten Dither-Rauschen. Auch hier haben 96-kHz-Signale die
Nase vorn, denn die Rauschleistung verteilt sich auf ein doppelt so breites Band, von dem
nur eine Hälfte hörbar ist. Das wahrgenommene Rauschen verringert sich dadurch um 3 dB.
Noch wesentlich weiter reichen die
Vorteile beim Noiseshaping. Hier geht es darum, die Rauschleistung zu einem möglichst
großen Teil im Band zwischen Hörgrenze und Nyquist-Frequenz anzuordnen. Bei einer
Abtastrate von 44,1 kHz ist dieses Band sehr schmal, und eine hohe Rauschleistung
lässt sich nur mit starken Pegelerhöhungen realisieren, wodurch die Grenzen des
Möglichen sehr
schnell erreicht sind. In einer 96-kHz-Umgebung verhält es sich jedoch ganz anders, denn
hier steht der weite Bereich zwischen 20 und 48 kHz zur Verfügung, wodurch bei
geschickter Filterung der größte Teil des Rauschens in den unhörbaren Bereich verlagert
werden kann.
Eine charakteristische Groesse des
beim Dithering zugegebenen Rauschens ist seine Leistung, die man sich als Fläche
unter
der Frequenzkurve vorstellen kann. Statt einer gleichmäßigen Verteilung über
den
Frequenzbereich versucht man beim Noiseshaping, einen möglichst großen Teil der
Fläche und damit der Leistung in den hohen Frequenzbereich zu legen, wodurch der Anteil im
hörbaren Bereich geringer wird. In einer 96-kHz-Umgebung ergibt sich ein solcher
Zusammenhang bereits bei gleichverteiltem Rauschen, da ohnehin mehr als die Hälfte
der
Rauschleistung im unhörbaren Bereich zwischen 20 und 48 kHz liegt. Setzt man hier
zusätzlich Noiseshaping-Verfahren ein, gelingt es relativ leicht, den weitaus
größten Bereich der Rauschleistung in unhörbare Bereiche zu verlagern.
96 kHz und
der Haas-Effekt
Beim Richtungsempfinden einer
Stereo-Aufnahme unterscheiden wir zwischen der Intensitäts-Stereofonie und der
Laufzeit-Stereofonie. Erstere beruht auf unterschiedlichen Pegeln eines Signals in beiden
Kanälen und wird im Studio mit den Panorama-Reglern des Mischpults erzeugt. Bei
natürlichen Stereoaufnahmen, insbesondere bei Nutzung der klassischen
Zwei-Mikrofon-Technik, ergibt sich das Richtungsempfinden jedoch aus den
Laufzeitunterschieden. Nach dem Gesetz der ersten Wellenfront, auch Haas-Effekt genannt,
orten wir ein Signal aus der Richtung, aus der der Schall zuerst unser Gehör
erreicht -
und zwar auch dann, wenn die Lautstärke an beiden Ohren gleich ist.
Nur wenig aus der Stereomitte
verschobene Signale erzeugen Laufzeitunterschiede von nur wenigen Mikrosekunden. Der
Abstand zweier Samples eines 44,1-kHz-Signales beträgt jedoch eine 44.100stel Sekunde,
also ca. 23 Mikrosekunden. Vielfach hört man die Meinung, dass die höhere Samplingrate
mit ihrem kürzeren zeitlichen Abstand zwischen zwei Samples besser geeignet sei, solche
geringen Laufzeitunterschiede wiederzugeben. Allerdings entbehrt diese Theorie jeglicher
Grundlage, denn in einem digitalen Signal können sehr wohl kürzere Zeitabstände
dargestellt werden, als der Abstand zweier Samples beträgt. Die Phasenlage eines
digitalen Audiosignals ist nämlich wertkontinuierlich, da sich die Quantisierung und die
daraus ergebenden Zahlenwerte immer nur auf die jeweils aktuelle Amplitude in einem
diskreten Zeitraster erstreckt. Nach der Rekonstruktion bei der D/A-Wandlung ergibt sich
daher neben der ursprünglichen Wellenform auch die ursprüngliche Phasenlage des Signals.
Allein die Erhöhung der Samplingfrequenz bringt hier folglich keinen Vorteil.
Fazit
Aus Sicht der Aliasing-Problematik
sind wir mit den heute üblichen Abtastfrequenzen bereits gut bedient. Die Erhöhung
auf
96 kHz bringt allenfalls leichte Verbesserungen, profitiert allerdings gleichzeitig von
anderen Vorteilen wie besseren Equalizeren und erweiterten Möglichkeiten in der
Nachbearbeitung. Wer bei seinen Produktionen also auf höchste Audioqualität
Wert legt,
wird die Vorteile des 96-kHz-Formats zu schätzen wissen.
Wenn die Nachbearbeitung mit 96 kHz
durchgeführt wird und alle Schritte, die von der hohen Samplingrate profitieren,
abgeschlossen sind, spricht allerdings nicht viel gegen die anschließende Konvertierung
auf 44,1 kHz. Ob daher 96 kHz auch für Tonträger und Consumer-Abspielgeräte sinnvoll
sind, bleibt fraglich. In jedem Fall ist die Erhöhung der Auflösung auf 24 Bit weit
wichtiger als die höhere Samplingrate.
|