Verteilung aus Stichprobe schätzen
-
Hallo,
angenommen, man hat einen Raum R^n mit einer Zufallsverteilung darauf, und ein Sample mit k werten aus dieser Verteilung. Welche Methoden gibt es, um diese Verteilung zu schätzen? Welche Annahmen und Constraints werden normalerweise genommen?
Ich meine, ich könnte um jeden Messwert eine Gaussverteilung annehmen, und alle sum- und normieren. Oder ich neme Bins (was für große n bestimmt kacke ist) und glätte das Resultat. Aber was sind die Verfahren, die von den coolen Jungs benutzt werden?
-
Also ganz allgemein gesagt führt man einen statistischen Test durch. Wie dieser nun im Detail aussieht, hängt davon ab, was man nun genau wissen will. Kannst du deine Frage vielleicht etwas präziser stellen? Oder wenn du am allgemeinen Verfahren interssiert bist, lies dir mal dies und die zugehörigen Links durch (Vorsicht: Sehr ausführlich, wahrscheinlich
suchst du nur die Übersicht der Tests am Ende):
-
SeppJ schrieb:
Also ganz allgemein gesagt führt man einen statistischen Test durch. Wie dieser nun im Detail aussieht, hängt davon ab, was man nun genau wissen will. Kannst du deine Frage vielleicht etwas präziser stellen? Oder wenn du am allgemeinen Verfahren interssiert bist, lies dir mal dies und die zugehörigen Links durch (Vorsicht: Sehr ausführlich, wahrscheinlich
suchst du nur die Übersicht der Tests am Ende):
Hallo,
ein statistischer Test sagt mir ja nur, ob ich annehmen will, dass die Messwerte aus einer bestimmten Verteilung kommen. Wenn ich nun die Verteilung gar nicht kenne (noch nicht mal die Form bis auf endlich viele Parameter), sondern nur eine Stichprobe, was mache ich dann?
Beispiel (für Informatiker): Ich baue ein Gatter, das nur Katzen durchlässt. Ich habe meine Erkennungsparameter, die aus Bild, Ton, Geruchsproben extrahiert sind, und Stichproben von Katzen, Hunden, Papageien etc. Nun möchte ich mit Neyman-Pearson eine Akzeptanzregion innerhalb der Erkennungsparameter definieren. Da ich nun zwei Hypothesen habe: {K: Katze, M: Mistviech} und zwei dazugehörige Verteilungen ist das kein Problem. Aber: Ich muss mir die dazugehörigen Verteilungen aus meiner Stichprobe konstruieren, und das ist mein Problem.
-
Du kannst sie auch lernen, z.B. mit neuronalen Netzen oder support vector machines. Auch kannst du diese Methoden direkt zur Unterscheidung von Katze und Nicht-Katze (Mistvieh) einsetzen.
-
..,- schrieb:
Aber: Ich muss mir die dazugehörigen Verteilungen aus meiner Stichprobe konstruieren, und das ist mein Problem.
Die zwei gängigen Methoden, wenn man gar nichts weiß, sind Histogramm (stufig) und Kerndichteschätzung (glatt). Oft wirst du aber durch hingucken schon sehen, dass deine Verteilung eine ganz bestimmte ist (z.B. Gauß), dann kannst du das mit einem der anderen Tests überprüfen.
-
hingucken schon sehen, dass deine Verteilung eine ganz bestimmte ist (z.B. Gauß)
Nein, die Daten koennen durchaus willkuerlich sein. Und wenn man besser als Gauss sein moechte, dann muss man schon mehr machen. Die Trennlinie kann durchaus komplexer sein. Auch ist das so 'ne Sache mit dem Hingucken. Bei 2 Dimensionen ist das vielleicht noch machbar, bei 3 wird es schwierig und ab 4 muss man auf 1/2/3 Dimensionen herunter projizieren. Verteilen sich die Daten z.B. auf 4 Dimensionen, aber sind bei geeigneter Wahl des Koordinatensystems nur zweidimensional, sieht man das auch nicht zwingend durch Projektion.
wenn man gar nichts weiß
Man hat Wissen: die Daten. Und man kann diese analysieren, vorverarbeiten und Features extrahieren, bevor man die Dichtefunktion schaetzt (sofern das noetig ist). Gibt auch genug Literatur dazu.
-
knivil schrieb:
wenn man gar nichts weiß
Man hat Wissen: die Daten.
Das reicht aber nicht, man muß mehr reinstecken. Wenn die Trennung völlig beliebig wäre könntest Du im Prinzip nur folgendes machen: eine Liste mit Positive-Eingaben und eine Liste mit Negativ-Eingaben. Eine neue Eingabe klassifizierst Du dann indem Du nachschaust, ob sie nicht vielleicht schonmal da war. Mehr Information steckt in den Daten eben nicht drin.
Alles andere ist zusätzliches Wissen, das man reinsteckt: die Verteilung ist glatt, es ist eine Gaußverteilung, ähnliche Eingabewerte sind ähnlich zu klassifizieren etc.
-
@kerndichteschätzung: das ist ja nett, das hätte ich auch erfinden könenn. mathematik ist doch nicht so abartig.
knivil schrieb:
Gibt auch genug Literatur dazu.
Quellen quellen quellen.
-
-
..,- schrieb:
ein statistischer Test sagt mir ja nur, ob ich annehmen will, dass die Messwerte aus einer bestimmten Verteilung kommen. Wenn ich nun die Verteilung gar nicht kenne (noch nicht mal die Form bis auf endlich viele Parameter), sondern nur eine Stichprobe, was mache ich dann?
Dann hast Du den Artikel nicht richtig durchgelesen oder verstanden.
Der Teil ist wichtig:
http://de.wikipedia.org/wiki/Likelihood-Quotienten-Test..,- schrieb:
Beispiel (für Informatiker): Ich baue ein Gatter, das nur Katzen durchlässt. Ich habe meine Erkennungsparameter, die aus Bild, Ton, Geruchsproben extrahiert sind, und Stichproben von Katzen, Hunden, Papageien etc. Nun möchte ich mit Neyman-Pearson eine Akzeptanzregion innerhalb der Erkennungsparameter definieren. Da ich nun zwei Hypothesen habe: {K: Katze, M: Mistviech} und zwei dazugehörige Verteilungen ist das kein Problem. Aber: Ich muss mir die dazugehörigen Verteilungen aus meiner Stichprobe konstruieren, und das ist mein Problem.
Ja, Frage: Haben wir es bei deinen Viechern mit einer http://de.wikipedia.org/wiki/Stochastisch_unabhängig zu tunen und brauchen einen http://de.wikipedia.org/wiki/Chi-Quadrat-Test ? Vielleicht hat die Katze bereits den Papagei gefressen oder stinkt nach einer Rauferei nach Hund. Vielleicht trägt der Papagei ja auch ein Katzenfell.
Akzeptanzregion := http://de.wikipedia.org/wiki/Likelihood-Quotienten-Test => Niveau α bzw. 1-α
Wie von Jester vorgeschlagen, würde ich auch Normalverteilungen ansetzen und ggf. mit http://de.wikipedia.org/wiki/Shapiro-Wilk-Test mit einer Signifikanz α1, α2 prüfen. Und die Normalverteilung nach Varianz σ², Mittelwert X(Quer) und Erwartungswert μ zu formalisieren ist doch easy.
Diesen Link finde ich auch noch hilfreich:
http://de.wikipedia.org/wiki/Beurteilung_eines_KlassifikatorsWichtig: Bei einem Fehler 2. Art freut sich Alf schon über die gegrillte Katze.
http://de.wikipedia.org/wiki/Fehler_2._Art
@SeppJ: Guter Link!
Kann ich gerade für die Liste der Wahrscheinlichkeitsverteilungen gut gebrauchen. Thx.
-
Prof84 schrieb:
..,- schrieb:
ein statistischer Test sagt mir ja nur, ob ich annehmen will, dass die Messwerte aus einer bestimmten Verteilung kommen. Wenn ich nun die Verteilung gar nicht kenne (noch nicht mal die Form bis auf endlich viele Parameter), sondern nur eine Stichprobe, was mache ich dann?
Dann hast Du den Artikel nicht richtig durchgelesen oder verstanden.
Der Teil ist wichtig:
http://de.wikipedia.org/wiki/Likelihood-Quotienten-TestNein. Denke außerhalb der Kiste.