Varianzformel und Vereinfachung - geht nich



  • Hi,
    ich will ein Programm zum normalisieren von Werten einer Messreihe implementieren und haenge nun etwas. Normalerweise haette ich diese Formeln hergenommen fuer...
    Mittelwert

    $\overline x = \frac{\sum x}{N}$

    Varianz

    $\sigma = \sqrt{\frac{\sum (x - \overline x)^2}{N-1}}$

    ...nun hab ich fuer beide diese Vereinfachung gefunden (weiss leider nich mehr wo) und kanns nun nicht ganz nachrechnen:

    $\sigma = \sqrt{\frac{N (\sum x^2) - (\sum x)^2}{N(N-1)}}$

    Is das nur ne Naeherung oder hab ich in meinen Berechnungen irgendwo nen Fehler?

    PS.:
    Was ist eigentlich der Unterschied zwischen obiger Varianz und dieser hier, wann benutze ich die eine, wann die andere?
    (empirische???) Varianz

    $\sigma = \sqrt{\frac{\sum (x - \overline x)^2}{N}}$


  • Corcovado schrieb:

    Mittelwert

    $\overline x = \frac{\sum x}{N}$

    Varianz

    $\sigma = \sqrt{\frac{\sum (x - \overline x)^2}{N-1}}$

    Diese Größe kenne ich als Standardabweichung, die Varianz ist das Quadrat davon.

    ...nun hab ich fuer beide diese Vereinfachung gefunden (weiss leider nich mehr wo) und kanns nun nicht ganz nachrechnen:

    $\sigma = \sqrt{\frac{N (\sum x^2) - (\sum x)^2}{N(N-1)}}$

    Is das nur ne Naeherung oder hab ich in meinen Berechnungen irgendwo nen Fehler?

    Soweit ich sehe gilt (Verschiebesatz):
    VarX=(X2)(X)2Var X = \sum (X^2) - (\sum X)^2 also
    σ=Nx2(x)2N2=1NN(x2)(x)2\sigma = \sqrt{\frac{N \sum x^2 - (\sum x)^2}{N^2}} = \frac{1}{N} \sqrt{N (\sum x^2) - (\sum x)^2}

    Deine Formeln scheinen mir falsch.

    Die empirische Varianz ist eben das, was ich bei einer Meßreihe mache, also die durchschnittliche quadratische Abweichung vom Mittelwert, und die "normale" Varianz ist das, was ich habe, wenn ich auf idealen Zufallsgrößen operiere.



  • Danke!

    Diese Größe kenne ich als Standardabweichung, die Varianz ist das Quadrat davon.

    Ups ja stimmt - ich meinte natuerlich hier die Standardabweichung. Allerdings ging es mir in erster Linie um die Mathematische Summenformeln.

    Genauer gesagt geht es mir genau um das, was Du als "Verschiebungssatz" bezeichnest. Ich konnte nun hierzu nur was ueber Fourier-Transformation finden und komme mir schon etwas daemlich vor, mit so dummen Summenzeichen nich ganz klar zu kommen. Wie kommst Du von der Zeile mit VarX auf die des Sigma darunter? Kann man das durch umstellen machen oder ist das eine Grundregel der Statistik, dessen Beweis einfach etwas laenger ist?

    Die empirische Varianz ist eben das, was ich bei einer Meßreihe mache, also die durchschnittliche quadratische Abweichung vom Mittelwert, und die "normale" Varianz ist das, was ich habe, wenn ich auf idealen Zufallsgrößen operiere.

    Das ist gut erklaert, danke. Welche Formeln gelten dann nun fuer empirische und welche fuer "normale" Varianz?

    EDIT:
    Ich habe gerade im Stoecker (S. 666) einen Satz gefunden, der es wohl erklaert (allerdings eben ohne Herleitung, ist das der Verschiebungssatz?):

    $\sigma ^2 = \sum(X - \sum 😵 ^2 = \sum X ^2 - (\sum 😵 ^2}$

    Gilt das allgemein fuer Summenzeichen?



  • Corcovado schrieb:

    Ich habe gerade im Stoecker (S. 666) einen Satz gefunden, der es wohl erklaert (allerdings eben ohne Herleitung, ist das der Verschiebungssatz?):

    $\sigma ^2 = \sum(X - \sum 😵 ^2 = \sum X ^2 - (\sum 😵 ^2}$

    Gilt das allgemein fuer Summenzeichen?

    Das Summenzeichen ist hier eher ungünstig, bzw. falsch, normalerweise schreibt man irgendein großes E hin, was dann wohl für Erwartungswert steht(?).

    EX=E(X)=x_iW(x_i)EX = E(X) = \sum x\_i W(x\_i)

    Die Varianz Var X ist nun gerade definiert, als die quadratische Abweichung um diesen Wert:
    Var X = E[(X - EX)^2] = \sum (x\_i - EX)^2 W(x\_i)
    Die Summe läuft immer über alle vernünftigen x_i.

    Man kann jetzt allgemein zeigen (der Beweis ist nicht so schwierig, wenn man mal durch die verschiedenen Indirektionsebenen durchblickt), daß
    E[(X-k)^2] = Var X + (EX-k)^2
    gilt und somit für k=0 das darsteht, was ich "Verschiebungssatz" genannt habe. Zu deinem σ\sigma kommt man durch Wurzelziehen, damit die Einheiten wieder passen und man ein anschaulicheres Abweichungsmaß bekommt. Oben habe ich nur das eingesetzt, was ich als dein E(X) gelesen habe und fatalerweise N und N-1 verwurstet. Naja, Du wirst schon verstehen 🙂

    Mit "richtiger" Statistik habe ich mich noch nicht auseinandergesetzt (im Wesentlichen referiere ich hier nur Teile meines Abistoffes :)), aber ich würde vermuten, daß man eben einen Satz Meßwerte hat, die irgendwie verteilt sind. Das E(X) ist dann gleich der (idR arithmetische) Mittelwert der Meßwerte. Du kannst jetzt wieder für jedes Meßergebnis x_i rechnen:
    VarX=(x_iEX)2H(x_i)Var X = \sum (x\_i - EX)^2 H(x\_i)
    mit H(x_i) als der relativen Häufigkeit des Versuchsausganges. Mehr hat man ja nicht, außer man weiß vorher schon, was rauskommen soll, wie Du, weil dein Faktor 1/N irgendwie vermuten läßt, daß die Meßwerte gleichverteilt sind, was sie allgemein aber nicht seien dürften. Was sind denn die genauen Randbedingungen für dein Programm? Wenn die Meßgrößen zB kontinuierlich verteilt sind, dann muß man's eh alles anders angehen.



  • Das Summenzeichen ist hier eher ungünstig, bzw. falsch, normalerweise schreibt man irgendein großes E hin

    Oh Mann - da kann man sich ja dummrechnen 😉 Ich bekam schon irgendwelche Selbstzweifel nich mal mehr mit Summenzeichen klarzukommen. In meiner Formelsammlung steht das so drin (und bis auf diese habe ich leider keine anderen Unterlagen dazu hier):

    $ D(X) = M((X-M(X)) ^2) = M(X ^2) - (M(X)) ^2 $

    Ich habe mich zwar gewundert, warum statt einem Summenzeichen ein M() geschrieben wird, aber habe es schliesslich hingenommen. D steht fuer Dispersion bzw Varianz.

    Wie ist denn nun noch mal formelmaessig der Unterschied zwischen der empirischen und der "normalen" Standardabweichung?

    Nachdem ich nun wieder etwas gelesen hab komme ich auf folgendes Ergebnis - ist das so richtig???? Ich hab auch gelesen, das im Englisch sprachigem Raum die empirische Standardabweichung als Normale Standardabweichung angesehn wird?!

    Die Formelsammlung sagt: die allg. Form sieht so aus, p stellt die Einzelwahrscheinlichkeit dar:

    $ \sigma = \sqrt{ \frac {\sum \_i (x\_i - \overline x) ^2}{p_i}} $

    Mit folgendem Erwartungswert:

    $ M = 1/N \sum x$

    damit erhalte ich folgende Varianz (mach das mal fuer die Varianz, damit ich nich dauernd Wurzeln schreiben muss, soweit kein Problem):

    $ \sigma ^2 = \frac{\sum x ^2}{N} - (\frac{\sum x}{N}) ^2 = \frac{N (\sum x ^2) - (\sum x) ^2}{N ^2}$

    das fand ich nun als empirische Standardabweichung:

    $ \sigma = \sqrt{ \frac{\sum (x - \overline x) ^2}{N-1}} $ $ \sigma ^2 = \frac{\sum x ^2}{N-1} - (\frac{\sum x}{N-1}) ^2 = \frac{N-1 (\sum x ^2) - (\sum x) ^2}{(N-1) ^2}$

    analog weitergerechnet wuerde es so aussehen...

    $ \sigma ^2 = \frac{(N-1) (\sum x ^2) - (\sum x) ^2} {(N-1) ^2} = \frac{\sum (x - \overline x) ^2} {N-1}$

    Der erste Teil vor dem = , waere fuer mich um einiges leichter zu implementieren als die Form nach dem = . Ist das nun aber richtig so?

    Das n-1 kann ich mir gerade noch erklaeren, dass entweder der eigene Zahlenwert xi eben bei der "Anzahl der Werte" nicht mitgezaehlt wird fuer die Einzelwahrscheinlichkeit, oder eben der Mittelwert nicht mitgezaehlt wird, wie auch immer. Aber um eben allg. eine vielleicht hoehere Prioritaet auf die Streuung der einzelnen Werte zu erhalten?! Das Ergebnis muesste ja bei n-1 groesser sein als bei n alleine, naja praktisch wohl erbsenzaehlmodus 😉 Vielleicht gibts dafuer auch ne richtigere Erklaerung, da mir so ein Minimalunterschied nicht wirklich einleuchten will???.

    (im Wesentlichen referiere ich hier nur Teile meines Abistoffes )

    Genau das macht es ja so frustrierend - Danke schonmal 🙄 🙂



  • Corcovado schrieb:

    Das n-1 kann ich mir gerade noch erklaeren, dass entweder der eigene Zahlenwert xi eben bei der "Anzahl der Werte" nicht mitgezaehlt wird fuer die Einzelwahrscheinlichkeit, oder eben der Mittelwert nicht mitgezaehlt wird, wie auch immer. Aber um eben allg. eine vielleicht hoehere Prioritaet auf die Streuung der einzelnen Werte zu erhalten?! Das Ergebnis muesste ja bei n-1 groesser sein als bei n alleine, naja praktisch wohl erbsenzaehlmodus 😉 Vielleicht gibts dafuer auch ne richtigere Erklaerung, da mir so ein Minimalunterschied nicht wirklich einleuchten will???

    Ich sehe das genau so wie Du.

    Man hat eine Meßreihe vorliegen und bestimmt daraus einen Mittelwert, der ja aber aus meinen Meßdaten stammt. Das ist ein kleiner Unterschied zu dem analytischen Erwartungswert.

    Beispiel: Ich habe eine kurze Meßreihe mit, sagen wir, einer Messung. Da hätte ich ja dann imer VarX=0, also ist das nicht sinnvoll, weil man da ja gar keine vernünftige (empirische) Varianz dazu ermitteln KANN. Und so ist es bei längeren Meßreihen, man nimmt sozusagen den Mittelwert aus seiner Meßreihe heraus und dividiert darum nur durch (N-1). Man muß sich halt klar machen, daß man hier schon lange den Bereich der exakten Mathematik verlassen hat und SCHÄTZT. Die empirische Varianz ist eine Abschätzungsgröße, und die wird anscheinend besser, wenn man statt N (N-1) setzt. Wahrscheinlich haben sich die Statistiker da gar keinen großen Kopf drum gemacht, sondern sich überlegt, daß das minimal besser ist und dann die empirische Varianz dazudefiniert. So sind sie eben :).

    Von daher würde ich sagen: deine obige Formel mit dem N-1 stimmt. Viel Glück.



  • Super Antwort - Danke!!! 👍 🙂

    Ich werd mich noch etwas weiter einlesen, da ich noch was dazu gefunden hab. Ich denke dass es bei umfangreicheren (oder normalen) Datensaetzen die man statustisch behandeln will, der Unterschied zw n oder n-1 eh etwas hinfaellig ist.

    Interessant fand ich halt nur noch, dass es (wiedermal) im Englischsprachigem Raum anders gehandhabt wird. Neben verrueckten angelsaechsischen Massen (1 inch = 1/12 Fuß = 1/36 yard und 1 mile = 1760 yards ??!!!), einem etwas grosszuegigeren Behandlungmodell von Peakbreiten (in chemischen Messungen) nun auch noch eine etwas andere Handhabung der statistischen Varianz. Hoffentlich muss ich nie mathematische Beweise auf Englisch fuehren - wahrscheinlich kaemen dann sogar noch andre Zahlensysteme, Zeitrechnung oder sonstige Dimensionsloecher auf einen zu...eieiei

    Edit:
    so ich habs nun im (ausgeliehenen) Sachs gefunden (S. 131) - die Formel stimmt doch. Anscheinend koennen Faktoren der Summenzeichen bei der Umwandlung der Summenzeichen im Quadrat vernachlaessigt werden, was anscheinend auch fuer das Quadrat (Schritt 2 auf 3) gilt, welches NICHT aufs n im oberen Nenner uebertragen wird - emp. Form:

    $$ \overline x = \frac{\sum x}{n} \sigma = \sqrt{\frac{\sum(x-\overline x) ^2}{n-1}} = \sqrt{\frac{\sum(x-\frac{\sum x}{n}) ^2}{n-1}} = \sqrt{\frac{\sum(x^2)-\frac{(\sum x) ^2}{n}}{n-1}} = \sqrt{\frac{n\sum(x ^2-(\sum x) ^2)}{n(n-1)}}$$

    Zu den Rahmenbedingungen:
    Tja ich soll nur das Programm entwerfen, es handelt sich um Daten, die afaik normalverteilt sein sollten (sonst wuerde es ja keinen Sinn machen), die Streuung sollte wohl auch nicht zu gross sein, weshalb eben ein arith. Mittel ausreicht zur Normalisierung - so wurde es mir gesagt, das sind allerdings Biologen und die haben erfahrungsgemaess oft seltsame mathematische Kenntnisse.

    Deine Formel mit dem H(x) ist eine Abweichung, die bei Haeufigkeitsverteilungen verwendet wird, das trifft bei mir (afaik) nicht zu.

    Zu n-1: "Nach der Berechnung von x-quer sind von den n Einzelwerten nur noch n-1 frei waehlbar; der Ausdruck 'n-1' heisst daher Freiheitsgrad; obige Formel schaetzt daher erwartungstreu." [Sachs, S.130]

    Zur Formel allg. fand ich noch: "Das arith. Mittel ist umso weniger brauchbar, je schiefer die Verteilung und je groesser die Streuung ist; die Varianz bzw. die Standardabweichung wird unter diesen Bedingungen weniger interessant. Aufschlussreich ist dann die Angabe des Medians und der Median-Deviation. Zusaetzlich gibt man unteres und oberes Quartil an." tja aber es geht ja ums Normalisieren bei mir.

    Danke trotzdem!!! Da ich ansonsten wohl noch sonstwo haengen wuerde..


Anmelden zum Antworten