Mit welcher Wahrscheinlichkeit gehört ein Punkt in eine Stichprobe?



  • Hallo,

    eine mathematische Frage von einem mathematischem Noob:

    Situation:
    Ich habe eine statistische Stichprobe, welche aus "n" Tupeln zusammengesetzt ist (x, y Koordinate).
    Dann erhalte ich ein neues Tupel (ebenfalls x,y Koordinate).

    Frage ist nun: Mit welcher Wahrscheinlichkeit gehört das neue Tupel zu der Grundgesamtheit der Stichprobe?

    Mein bisheriger Ansatz ist wie folgt: Ich berechne die Lineare Regressionsgerade über meine Stichprobe. Je größer die Abweichung des Punktes von der Geraden, desto größer ist die Chance, dass das neue Tupel nicht zu der Gesamtmenge gehört. Über eine naive Annahme, dass die Tupel um die Gerade normalverteilt herumliegen, könnte man dann ab z.B. einer 3-fachen Standardabweichung mit einer 95%iger Wahrscheinlichkeit sagen, dass es sich um einen Out-Of-Sample Point handelt. Problem: Ich weiß nicht ob die Gesamtheit Normalverteilt ist...

    Hat einer bessere Ideen? Ich würde ja selber Googeln/Wiki'en, mir fehlt aber leider das Detailwissen Stochastiks um da gezielt forschen zu können.

    Danke für Antworten 🙂



  • Sind die Samples normalverteilt? Dann einfach eine Normalverteilung schaetzen, und fuer das neue Tupel auswerten (und dann die wahrscheinlichkeit berechnen). Ueber die Regressionsgerade faellt mir da spontan nix ein. Den Abstand zur Geraden als Normalverteilt zu nehmen halte ich fuer gewagt, da der ja von der Stichprobe selbst abhaengig ist...



  • Ich bin mir nicht sicher, was Du genau willst. Ich sag mal wie ich das, was ich glaube verstanden zu haben, formulieren würde.

    Du hast einen Zufallsprozess X. X produziert verschiedene Muster, die sammelst Du. Nun nimmst Du Dir ein festes Muster und fragst Dich, wie wahrscheinlich es ist, dass X dieses Muster produziert. Richtig?

    Wenn ja:
    Du mußt die Wahrscheinlichkeitsverteilung des Zufallsprozess X schätzen. Dazu gibt es prinzipiell zwei Ansätze: den parametrischen und den nichtparametrischen. Im ersten Fall machst Du eine Verteilungsannahme (zum Beispiel Normalverteilt oä) und bestimmst die Parameter möglichst genau). Im nichtparametrischen Fall versucht man die Verteilung direkt zu schätzen. Die beiden bekanntesten Techniken dazu sind k-nearest neighbor und parzen-windows. Nichtparametrische Verfahren benötigen mehr Datenpunkte, um eine Verteilung zu schätzen. Dafür können sie aber beliebige Verteilungen darstellen.



  • Hallo,
    danke schonmal für eure Antworten.
    Jesters Formulierung meiner Frage ist zutreffend, danke für auf-die-sprünge helfen 🙂

    k-nearest-neighbor bzw. parzen-windows sagen mir nach kurzem Blick auf Wikipedia mal absolut gar nichts - schaue ich mir an!

    Eine Annahme über die Verteilung der Tupel mache ich ja schon selbst - ich rate, dass diese normalverteilt um meine LR liegen. Gibt es dafür einen mathematischen Namen? Imo treffen meine Annahmen auf sehr auf http://en.wikipedia.org/wiki/Homoscedasticity zu, right?


Anmelden zum Antworten