Herleitung der erwarteten Varianz
-
Hi alle.
Ich lese die letzten Wochen an einem Paper und ich hänge bei einem Schritt fest. Sekundärliteratur hat mir leider auch nicht geholfen, für Physiker scheint das normal zu sein, sodass im Paper auch kein hinweis gegeben wurde, was dort genau gemacht wurde.
Ich habe 2 sets von samples x_1,...x_N und y_1...y_n aus den Verteilungen p_x und p_y. Gegeben ist des weiteren die Funktion f mit f(x) > 0 und ich will mit den Datenpunkten folgenden Mittelwert schätzen:
natürlich habe ich nicht unendlich viele samples, sondern nur meine n und deswegen eine Varianz im schätzer. Diese wird im Paper wie folgt angegeben
Var\left(\ln{\frac{\sum\_i f(x\_i)}{\sum\_j f(y\_j)}}\right) \approx \frac 1 n \left[ \frac{_{p\_x(x)}}{ \_{p\_x(x)}^2}+\frac{ \_{p\_y(y)}}{ \_{p_y(y)}^2}-2 \right] Leider steht im Paper nicht mehr als das, ausser dass die Annahme gemacht wurde, dass der Fehler normalverteilt ist, wenn n groß genug ist.
hat jemand eine Idee? Ich komme zwar an eine Menge ähnlicher Terme, aber nichts was genau dahin kommt.
Ich starte mit
dabei sind die <> die Erwartung über alle möglichen Samples und in der letzten Zeile nutze ich aus, dass die beiden Terme unabhängig voneinander sind.
Aber da verlässt es mich. Zum einen ist das Vorzeichen falsch, zum anderen kriege ich den logarithmus nicht weg (und dann ist da noch die Sache mit der 2...). Ich muss aber an irgendeiner Stelle die logarithmus eigenschaft verwenden, um die Terme auseinanderziehen zu können.
-
otze schrieb:
Ich starte mit
dabei sind die <> die Erwartung über alle möglichen Samples und in der letzten Zeile nutze ich aus, dass die beiden Terme unabhängig voneinander sind.
Aber da verlässt es mich. Zum einen ist das Vorzeichen falsch, zum anderen kriege ich den logarithmus nicht weg (und dann ist da noch die Sache mit der 2...).
Ich hab jetzt nicht wirklich reingedacht, aber: Du hast falsch ausmultipliziert ... dann stimmen auch die Vorzeichen und es kommt auch ein Term mit einer zwei vor.
Vielleicht hilft dir das schon mal weiter.
Wie der Logarithmus weggeht, keine Ahnung. Mal ne Taylorapproximation ausprobiert?
-
Riecht für mich auch nach Taylorreihe bzw. -approximation.
-
@Michael E
Nein, ich hab nur im letzten Schritt eine Varianzrechenregel angewandt. ich weiß aber nicht, ob die hier gültig ist.
Ich hab mir noch eine andere Quelle aufgetan und die hat als Zwischenergebnis
\sigma^2 = \frac 1 n \left[ \frac{_{p\_x(x)}- ^2\_{p\_x(x)}}{ \_{p\_x(x)}^2}+\frac{ \_{p\_y(y)}- ^2\_{p\_y(y)}}{ \_{p_y(y)}^2} \right] Also nichtmal mehr als Approximation. Die -1 scheint also aus einem Schritt zu stammen der irgendwie Var(f)/<f>^2 ausspuckt. Leider klingelt da so gar nichts bei mir.
Bzw das einzige was bei mir klingelt ist die log-normal Verteilung.
http://en.wikipedia.org/wiki/Log-normal_distributionda sieht sigma^2 so ähnlich aus, aber eben nur ähnlich, den logarithmus wird man auch da nicht los. und das Ergebnis passt auch nicht als e{sigma2}
-
Okay. Ich habs. würde mich aber freuen, wenn jemand drauf schauen würde.
Annahme: N >> 1
Ich mache es nur für den ersten Term.
Var(\ln \frac 1 N \sum\_i f(x\_i)) =\left<\left( \ln \frac{\frac 1 N \sum\_i f(x\_i))}{_{p_x(x)}} \right)^2 \right> \approx\left<\left( \frac{\frac 1 N \sum\_i f(x\_i))}{ _{p_x(x)}}-1 \right)^2 \right>\\ = \frac{\left<\left(\frac 1 N \sum\_i f(x\_i))- _{p\_x(x)}\right)^2 \right>}{ ^2\_{p_x(x)}} = \frac{ _{p\_x(x)}- ^2\_{p\_x(x)}}{N ^2\_{p_x(x)}} = \frac 1 N\left[ \frac{ _{p\_x(x)}}{ ^2\_{p_x(x)}}-1\right] im zweiten Schritt nutze ich aus, dass ich annehmen kann das der quotient ~ 1 ist und daher log(x)~x-1 benutzt werden kann. dann stell ich 1 als quotient der Erwartungswerte dar und kann den Nenner rausziehen.
puh, das war arbeit.