Digitale Audio-Signale

krümelkacker

Typischerweise repräsentiert man das per PCM (Puls-Code-Modulation). Ein digitales Signal ist zeitdiskret (man hat einen Messwert an bestimmten Zeitpunkten und nichts dazwischen) und wertdiskret (die Messwerte werden mit einer endlichen Genauigkeit dargestellt, z.B. 16 Bits pro Abtastwert). Das mit dem "nichts dazwischen" ist nicht schlimm, wenn man weiß, dass das Signal bandbeschränkt war, siehe Abtasttheorem.

Ein Mikrophon wandelt Druckschwankungen in Spannungsschwankungen um, die dann über einen A/D-Wandler digitalisiert werden können. Das Gegenstück zum Mikrophon ist der Lautsprecher.

Das, was in dem Mikrophon-Signal steckt, sind aber keine absoluten Drücke, sondern nur "Druckschwankungen". Damit meine ich den Anteil des Drucks, der über einer bestimmten Frequenz liegt. Mikrophone können nur solche Schwankungen aufnehmen und Lautsprecher können nur solche Schwankungen wiedergeben. Ob eine Lautsprechermembran konstant vorne oder konstant hinten steht, ändert nicht wirklich etwas am Druckfeld. Druckschwankungen bekommst nur du, wenn sich etwas bewegt (und umgekehrt).

Ob jetzt für den hörbaren Bereich (20-20000 Hz) die Auslenkung einer Lautsprechermembran proportional zum Spannungssignal ist, weiß ich ehrlich gesagt nicht. Was aber proportional sein sollte ist das Spannungssignal zur Differenz des aktuellen Drucks an und des mittleren Drucks. Und das eben nur für den Frequenzbereich, für den ein Lautsprecher ausgelegt ist. Aber so perfekt und einheitlich machen das meines Wissens nach Lautsprecher auch nicht. Sie haben typischerweise ihre eigene characteristische "Färbung", geben also einige Frequenzen etwas gedämpft und andere etwas verstärkt wieder, was die Klangfarbe etwas ändert. Und am Ende wirst du auch nicht nur das hören, was der Lautsprecher in deine Richtung schickt, sondern auch die diversen Reflektionen an Wänden und Gegenständen. Das, was an deinem Ohr ankommt ist also eine Überlagerung von unterschiedlich zeitlich verzögerten Druckschwankungen, wobei sich dadurch auch wieder bestimmte Frequenzen verstärken und andere dämpfen können (konstruktive und destruktive Interferenzen).

Mit SeppJ's Link kann ich nicht so viel anfangen, soweit ich das verstanden habe, geht es darum, Daten und Clock auf eine Leitung zu bringen mit Verlust der Polarität (die Polarität der Zustände untereinander bleibt aber erhalten).

@krümelkacker:
Das ist nun ein wenig schwierig zu verstehen für mich.

Damit meine ich den Anteil des Drucks, der über einer bestimmten Frequenz liegt.

Das hier verstehe ich nicht. Wie ist das mit "Anteil des Drucks" zu verstehen und über welcher bestimmten Frequenz muss der liegen?

Angenommen, ein Mikrophon nimmt eine Recktecksschwingung mit f=1kHz auf, dann sind auf dem PC nur die beiden Flanken dieser Schwingung gespeichert? Oder gar nur die Aufwärtsflanke?

Du hast geschrieben: "16 Bits pro Abtastwert". Ist das dann die (Laut)Stärke eines jeden Abtastpunktes?

Wenn ja, bedeutet das, dass die Musikdateien z.B. eigentlich nur eine grosse Menge an Lautstärken ist? Die Frequenzen lassen sich dann mit der diskreten Fourier-Transformation errechnen, soviel ich weiß.

Sorry, es wirkt bestimmt so als hätte ich deinen Post nur überflogen, ich hab ihn aber mehrfach gelesen und versucht es zu verstehen, allerdings bin ich recht unwissend (daher auch die Frage). Danke schonmal für die Hilfe bislang.

krümelkacker

Stranger123 schrieb:

Mit SeppJ's Link kann ich nicht so viel anfangen, soweit ich das verstanden habe, geht es darum, Daten und Clock auf eine Leitung zu bringen mit Verlust der Polarität (die Polarität der Zustände untereinander bleibt aber erhalten).

SeppJ hat zumindest deine Frage ganz anders verstanden als ich. Anders kann ich mir seine Antwort nicht erklären.

Stranger123 schrieb:

@krümelkacker:
Das ist nun ein wenig schwierig zu verstehen für mich.

Damit meine ich den Anteil des Drucks, der über einer bestimmten Frequenz liegt.

Das hier verstehe ich nicht. Wie ist das mit "Anteil des Drucks" zu verstehen und über welcher bestimmten Frequenz muss der liegen?

Den Druck p(t) zur Zeit t kannst du als Summe darstellen: p(t) = p_i(t) + p_h(t) + p_u(t), wobei der erste Teil den mittleren Druck und den Infraschall enthällt (Frequenzen unter 16 Hz), das zweite den hörbaren Schall enthält (16 Hz - 20 kHz) und das dritte der Ultraschall ist. Mikrophone und Lautsprecher sind typischerweise zur Erfassung und Wiedergabe von hörbarem Schall ausgelegt. Was Mikrophone und Lautsprecher mit Frequenzen unter 16 Hz und über 20 kHz machen, ist nicht so wichtig, wenn es nur um hörbaren Schall geht. Mit "Anteil des Drucks" meinte ich p_h. Die Bezeichnungen p_i, p_h, p_u kommen jetzt aber von mir.

Stranger123 schrieb:

Angenommen, ein Mikrophon nimmt eine Recktecksschwingung mit f=1kHz auf, dann sind auf dem PC nur die beiden Flanken dieser Schwingung gespeichert? Oder gar nur die Aufwärtsflanke?

Nein. Eine Rechtecksschwingung von 1 kHz enhält einen 1 kHz Grundton und dazu noch (theoretisch) unendlich viele Obertöne mit vielfachen der Grundtonfrequenz, also 2 kHz, 3 kHz, 4 kHz u.s.w. bis ins unendliche, aber mit immer schwächer werdenden Amplituden. Das, was im Idealfall auf deiner Festplatte landet, wenn du Deine Soundkarte mit einem Rechteckssignal fütterst, ist eine bandlimiterte Version davon, also alles zwischen 16 Hz und 20 kHz. In diesem Fall reicht das für den Grundton und 19 Obertöne. Das sollte immer noch fast genauso wie ein Rechteck aussehen.

Edit: Mir fällt gerade ein, dass es beim Rechteckt, wo der Tastgrad (Duty Cycle) 50% beträgt, gar keine geraden Obertöne gibt. Du hast dann bei der Grundtonfrequenz von 1 kHz nur die Frequenzen 1,3,5,7,...,19 kHz, also insgesamt 10 Frequenzen, die zwischen 16 Hz und 20 kHz passen.

Stranger123 schrieb:

Du hast geschrieben: "16 Bits pro Abtastwert". Ist das dann die (Laut)Stärke eines jeden Abtastpunktes?

Lautstärke ist eine Größe aus der Psychoakustik, die viel mit unserer Wahrnehmung zu tun hat. Kompliziertes Thema. Der 16-Bit-Wert repräsentiert die Abweichung des Drucks gegenüber dem mittleren Raumdruck (zumindest für den hörbaren Bereich).

Stranger123 schrieb:

Wenn ja, bedeutet das, dass die Musikdateien z.B. eigentlich nur eine grosse Menge an Lautstärken ist?

Nein. Schall ist die Ausbreitung von kleinsten Druckänderungen in einem Medium. Mit Änderung meine ich hier nicht die zeitliche Ableitung des Drucks nach der Zeit, sondern den Unterschied zwischen Druck zu einem bestimmten Zeitpunkt und dem mittlerem Druck. Das kann man leider missverstehen. Du hast in einem Raum einen bestimmten Druck von ca 100 kPa (Kilo-Pascal). Wenn du jetzt Lärm machst, dann breiten sich Schallwellen aus, die dazu führen, dass du an einem Punkt in Deiner Nähe Drücke bekommst, die um 100 kPa leicht rumschwanken. Diese Schwankungen, also die Differenz zwischen aktuellem Druck und den 100 kPa (falls 100 kPa der mittlere Druck ist) nimmst du mit dem Mikro auf -- mehr oder weniger.

Also nochmal kurz zusammengefasst: Ein ideales Audio-Mikrophon dämpft alles unter 16 Hz und über 20 kHz und wandelt das, was vom Druck übrig bleibt in ein Spannungssignal um. Nehmen wir einen "linearen Frequenzganz" an (das heißt, die Frequenzen zwischen 16 Hz und 20 kHz werden alle "gleichstark" aufgenommen), gibt es dann einen Umrechnungsfaktor von soundsovielen Volt pro Pascal. Dieser Faktor ist die Sensitivität des Mikros. Hersteller geben dazu auch Kurven an. Also, bei soundsoviel Hetz macht das Mikro soundsoviel Volt/Pascal. Der A/D-Wandler macht aus dem Spannungssignal dann ein digitales, wo es auch wieder einen Umrechnungsfaktor von LSB/Volt gibt, den man aber auch über seinen Mixer über einen Schieferegler normalerweise beeinflussen kann. Aber auch der A/D-Wandler lässt nicht alles passieren. Hohe Frequenzen lässt der nicht durch, weil es sonst zu Aliasing kommen würde (siehe Abtasttheorem). Und Du hast typischerweise irgendwo noch einen Versatz, der ungewollt drauf addiert wird. Wenn du also konstant 0V anlegst, mag es sein, dass der 16 Bit-A/D-Wandler 149 statt 0 rausspuckt. Das nennt man dann im Englischen "DC-Offset" (DC = direct current, Gleichspannung).

Stranger123 schrieb:

Danke schonmal für die Hilfe bislang.

Gerne.

Angaben sind ohne Gewähr und habe ich nach meinem besten Verständnis gemacht.

Okay, das mit dem Anteil des Drucks verstehe ich nun. Auch alles andere.

Nur um sicher zu gehen dass ich es auch korrekt verstanden habe:

ein Mikrophon nimmt eine Recktecksschwingung mit f=1kHz auf

Nach diesem Quasi-Bandpass im Mikrophon und im AD-Wandler des Soundcontrollers im PC sieht das Signal dann in etwa so aus (vom Stil her, nicht von den Werten):
http://www.hindawi.com/journals/ijbi/2008/184123.fig.001.jpg
Wobei je nach Mikrophon unterschiedliche Frequenzen unterschiedlich stark aufgenommen werden können. Dann wird auf dem PC zu jedem Zeitpunkt (Δt = (44100Hz)^-1, bzw. einfach der Reziprokwert der Abtastfrequenz) ein diskreter Wert gespeichert, der angibt, wie sehr sich der Druck vom üblichen Raumdruck unterscheidet (der nicht linear zur Druckänderung sein muss). Die Genauigkeit dieses Wertes ist von der Sensitivität des Mikrophons und von der Quantisierungsauflösung bzw. des Bits-Per-Sample-Wertes abhängig.

Stimmt das?

SeppJ

krümelkacker schrieb:

Stranger123 schrieb:

Mit SeppJ's Link kann ich nicht so viel anfangen, soweit ich das verstanden habe, geht es darum, Daten und Clock auf eine Leitung zu bringen mit Verlust der Polarität (die Polarität der Zustände untereinander bleibt aber erhalten).

SeppJ hat zumindest deine Frage ganz anders verstanden als ich. Anders kann ich mir seine Antwort nicht erklären.

Ja, ich dachte es ginge um die digitalen Audiosignale zwischen den Geräten, also quasi OSI-Layer 1 digitaler Audiosignalübertragung. Die Frage, wie Signale "gespeichert" werden machte für mich in dieser Formulierung wenig Sinn, da habe ich einfach mal ein bisschen geraten, was der TE wohl am ehesten wissen wollte.

krümelkacker

Stranger123 schrieb:

Nur um sicher zu gehen dass ich es auch korrekt verstanden habe:

ein Mikrophon nimmt eine Recktecksschwingung mit f=1kHz auf

Nach diesem Quasi-Bandpass im Mikrophon und im AD-Wandler des Soundcontrollers im PC sieht das Signal dann in etwa so aus (vom Stil her, nicht von den Werten):
http://www.hindawi.com/journals/ijbi/2008/184123.fig.001.jpg

Ja. So in etwa. So ein digitales Audiosignal ist nur ein punktweise abgetastetes und quantisiertes Zeitsignal. Das Zeitsignal, was es repräsentiert ist ein Bandpass-gefiltertes Drucksignal + Rauschen + harmonische Verzerrungen + DC-Offset. Idealerweise sind die letzten drei Anteile sehr sehr klein ... wobei durch das Quantisieren auch ein bisschen Rauschen entsteht, also dadurch, dass man nur endlich viele Bits zur Darstellung eines Spannungswertes bzw eines Druckwertes benutzt.

Das hatte ich vergessen zu erwähnen:

Die Abtastrate begrenzt die Bandbreite des Signals, was man erfassen kann. Die Wortlänge (eg 16 Bits) begrenzt den Signal-Rausch-Abstand. Mehr Bits => weniger Quantisierungsrauschen. Ab einer gewissen Wortlänge gibt es keinen Gewinn mehr, weil das Quantisierungsrauschen dann überhaupt keine Rolle mehr spielt und alles andere viel schlimmer ist.

Stranger123 schrieb:

Wobei je nach Mikrophon unterschiedliche Frequenzen unterschiedlich stark aufgenommen werden können.

Ja.

Stranger123 schrieb:

Dann wird auf dem PC zu jedem Zeitpunkt (Δt = (44100Hz)^-1, bzw. einfach der Reziprokwert der Abtastfrequenz) ein diskreter Wert gespeichert, der angibt, wie sehr sich der Druck vom üblichen Raumdruck unterscheidet (der nicht linear zur Druckänderung sein muss). Die Genauigkeit dieses Wertes ist von der Sensitivität des Mikrophons und von der Quantisierungsauflösung bzw. des Bits-Per-Sample-Wertes abhängig.

Stimmt das?

Ja.

...wobei ich hier über das Wort "linear" gestolpert bin. Dass da ggf Frequenzen unterschiedlich stark gedämpft, verstärkt oder phasenverschoben werden, schließt einen linearen Prozess nicht aus. Das einzige, was da nicht unbedingt linear ist, ist die Sensitivitätskurve eines Mikrophons, die dir zu jeder Frequenz die Sensitivität in V/Pa angibt. Man hat trotzdem einen linearen Zusammenhang zwischen Druckschwankung und Spannungsschwankung bei einer bestimmten Frequenz. Zumindest hätte man das gerne so. Aber auch hier gibt es in der brutal realen Welt "nicht-lineare Verzerrungen". Im Extremfall hast du eine Übersteuerung und Clipping. Da ist dann nix mehr linear. Achja, und ein bisschen thermisches Rauschen kommt ja auch noch drauf.

Die Qualität von Aufnahme- und Abspielsysteme lassen sich also durch folgende drei Dinge charakterisieren:

Linearität des Frequenzgangs
Linearität des Systems, bzw die Stärke der nichtlinearen Verzerrungen (harmonic distortions, Klirrfaktor, ...)
Rauschen

Stranger123 schrieb:

Hey,

wie werden digitale Audio-Signale gespeichert? Sind das Abfolgen von 0 und 1 die darstellen, wann der Lautsprecher unter Spannung steht (also 0 für keine Spannung, 1 für Spannung)?
Oder sind das Abfolgen von Werten zwischen 0 und 2^16-1 z.B. die Darstellen, wie stark das Lautsprecher-Membran bewegt werden soll?

Letzteres. Stell dir einen automatisierten, digitalisierten Lautstärkeregler vor. Je mehr Regelstufen, desto Rausch/Fehlerfreier die Digitalisierung, desto genauer läßt sich die Auslenkung abstufen. Je höher die Abtastfrequenz, desto höher i.d.R. der Speicherverbrauch. Du könntest ein Audiosignal bzw. eine Sinuskurve selbst auf kariertes Papier malen, und mal drüber meditieren

In der Zwischenzeit der Digitalisiergeschichte haben sich gewisse Standards herausgebildet. Eine speicherfreundliche Alternative zur direkten Speicherung von Musik sind z.B. Midi-Dateien. Mit zunehmender Datenkompression in Mode kam MP3.

Wenn es gar nicht anders geht, dann kann man auch versuchen, Audioereignisse zu resynthetisieren. In den Siebzigern kamen es neben den üblichen Tonbandgeräten z.B. "Synthpatches" auf. Das kann man auch digital imitieren, ein paar Kenndaten speichern und dann rekonstruieren.
Man könnte dann auch sagen, im Bildtechnischen Sinne, "Malen nach Zahlen".

warum so kompliziert ?

schau dir das WAV Format an, das ist maximal einfach.
Es werden die Abtastwerte des Sounds abgespeichert, dass ergibt dann halt irgendeine sinusähnliche Form.
Also so in der Art:

Jeder einzelne Wert liegt eine fixe Zeitspanne auseinander, z.B. 0,5ms.

Das ganze ist zeit und werte diskret, also ist die schöne Welle in Wirklichkeit eine Treppe.
Hier ein Bild:
https://upload.wikimedia.org/wikipedia/commons/2/21/4-bit-linear-PCM.svg
Die blauen Punkte sind dabei die Werte, die in der WAV Datei abgespeichert sind.

Und genau diese blauen Werte werden zum Schluss wieder an den Lautsprecher angelegt.
Kleiner blauer Wert: niedrige elektrische Spannung am Lautsprecher
Großer blauer Wert: hohe elektrische Spannung am Lautsprecher

Und einen Abtastzeitpunbkt später wird der nächste blau markierte Wert an den Lautrsprecher anlegeht, usw...
Und schon hört man den abgespeicherten Ton wieder.

In der Praxis gibts natürlich noch einige technische Details, um den Ton schöner klingen zu lassen, z.B. elektrische Filter, die die erwähnte Treppe in eine "weiche" Kurve umwandeln.

Aber ich möchte es nochmals unterstreichen: die primitive Variante, dass man die gespeicherten Werte proportional in eine Spannung umwandelt und dann am Lautsprecher anlegt reicht schon, um etwas sinnvolles zu hören! Nicht schön, aber es funktioniert!

krümelkacker

hgfhfghfghfgh schrieb:

Aber ich möchte es nochmals unterstreichen: die primitive Variante, dass man die gespeicherten Werte proportional in eine Spannung umwandelt und dann am Lautsprecher anlegt reicht schon, um etwas sinnvolles zu hören! Nicht schön, aber es funktioniert!

Dann hast du wirklich eine "Treppe", ja. Und das, was dabei "nicht schön" ist, ist eine leichte Dämpfung bei hohen Frequenzen und ein sogenanntes "Imaging" (das Gegenstück zu "Aliasing") wobei höhere Frequenzen als Spiegelbilder des hörbaren Bereichs erzeugt werden. Wer die nächste Evolutionsstufe weiter möchte, macht das dann mit "Oversampling":

Das Signal digital auf eine X-fache Abtastrate interpolieren
dann die analogen "Treppenstufen" erzeugen (sind aber viel kleiner diesmal)
Treppenstufen mit einem analogen Tiefpassfilter "wegglätten"

Und so wird's tatsächlich gemacht. Aufgrund der "kleineren Treppenstufen", deren höhe sich zu benachbarten Stufen nicht so schnell ändert, ist der analoge Filter auch leichter zu entwerfen. Oversampling sorgt dafür, dass der Abstand zwischen den Frequenzen, die man behalten will, und denen, die man loswerden will, um die "Treppe wegzubekommen", größer wird.

hustbaer

Das Oversampling ist auch nur ein Tiefpassfilter. Der Vorteil der digitalen Lösung ist hauptsächlich dass man sich ein paar OPs im analogen Signalweg spart - was sich günstig auf den Rauschabstand auswirkt. Und natürlich ist es digital etwas einfacher sehr steilflankige Filter umzusetzen.

Viele ältere Geräte (CD-Player etc.) hatten diesen Brickwall-Filter allerdings analog ausgeführt. Geht auch sehr gut.
Bzw. manche behaupten sogar dass die digitalen Brickwall-Filter phöse wären, weil sie meist als Linear-Phase Filter ausgeführt sind, und daher massiv Pre-Ringing erzeugen.
Wobei ich behaupte dass das die Leute sind, die auch das Gras wachsen hören. Goldohr-Fraktion halt.