Häufigkeitsverteilung modellieren



  • Hallo,

    Habe Zeitdauern die ich mit Mathematica (FitInDistribution) auf ein paar Häufigkeitsverteilungen testete (Lognormal, Exponential). Lognormal hatte den höchsten p-Wert, wobei ich nicht genau verstehe, was dieser bedeutet 😕 .

    Nun habe ich mich gefragt, wenn ich z.B. über 10 Jahre an jedem Tag einen Würfel werfe und der Wert 1 würde Eintritt bedeuten und der Wert 1 auch wieder Austritt und so die Zeitdauern generiere, ob sich so die Häufigkeitsverteilung der empirischen Daten modellieren lässt.

    Und hat dies dann nicht mehr mit der Bernoulli-Verteilung zu tun, als mit der Lognormalverteilung 😕 .

    Kennt jemand ein gutes Buch zu diesem Thema??

    Vielen Dank



  • Habe Fehler gemacht, heisst nicht FitInDistribution sondern DistributionFitTest.
    http://reference.wolfram.com/mathematica/ref/DistributionFitTest.html

    Kann auch nicht mehr den genauen p-Wert sagen, da ich die Trial-Version hatte, war aber glaube ich bei Anderson-Darling über 0.9.



  • Bei deinem Würfelbeispiel sind die Zeitdauern geometrisch verteilt: http://de.wikipedia.org/wiki/Geometrische_Verteilung

    Zum p-Wert hilft auch Wikipedia: http://de.wikipedia.org/wiki/P-Wert

    Wichtig ist, dass du aus einem hohen p-Wert nichts schließen kannst.
    Deswegen sind dises statistischen Tests auf eine bestimmte Verteilung nicht zu gebrauchen, wenn du aus Daten auf irgendwas schließen und dabei seriöse Fehlerschranken angeben willst.
    Das geht nur mit mehr Aufwand ( http://en.wikipedia.org/wiki/Statistical_learning_theory ).



  • Also ich müsste das vielleicht mal wirklich gründlich nachrechnen und ausprobieren.

    a) Ich suche ein Modell/theoretische Häufigkeitsverteilung für die empirischen Daten, wenn ich das korrekt formuliere?

    b) Ich könnte ja auch zwei "verschiedene Würfel" für den Ein- und Austritt nehmen.

    c) Kann ich irgendwie anhand des/der "Würfel/s" den Parameter der geometrischen Verteilung herleiten?

    e) Was ist mit den Zeiten/Dauern dazwischen?

    f) Was wenn ich für die Zeiten/Dauern direkt eine "theoretische Häufigkeitsverteilung???" suche?



  • Danke für die Antwort,

    stimmt laut Wikipedia, wenn ich für den Austritt und den Eintritt den gleichen Würfel(=gleiche Wahrscheinlichkeit) nehme, und jeden Tag einmal würfle, sind die Anzahl der Fehlversuche bis zum Eintritt oder Austritt, entweder die stationären oder ambulanten Tage und diese sind dann glaube ich geometrisch verteilt.

    Das Problem ist, ich hätte gern den Unterschied zwischen Eintritt und Austritt (unterschiedliche Wahrscheinlichkeit für Eintritt oder Austritt) und wollte deshalb fragen wie "es dann "verteilt" ist"???

    Oder wie man so eine theoretische Verteilung/Dichte herleitet?



  • Dazu müsstest du erstmal sagen, wie du aus den Eintritts- und Austrittszeitpunkten deine Intervalllängen definierrst.
    Wie zählst du z.B., wenn du nach einem Eintritt mehrere Austritte hast oder umgekehert.

    Was soll das ganze denn werden, wenn es fertig ist?



  • Also nach einem Austritt geht nur ein Eintritt.

    Die Intervalle - danke für die Überlegung - berechnete ich mit Qt QDate oder geht auch mit Excel und der Subtraktion mit Datumen.

    Also ich habe langsam da Gefühl - heute nach mehreren bitzli Alkohol - ich gehe an die Grenze dem Direktor vor da Bein zu treten.

    Oder gar die C14-Zitrone ("seriell") den Rest ganz auszudrücken.

    Wie rechnet man eigentlich die Wahrscheinlichkeit vom fillmore am Bonner Bahnhof??



  • http://www.c-plusplus.net/forum/faq#16 Finde nicht heraus wie man als Unregistrierter Beiträge löscht oder ändert.
    http://www.c-plusplus.net/forum/124840-full Fand auch keine Forenregeln.

    Wollte deshalb den Forumsmoderator darum bitten, den letzten Beitrag zu löschen oder wie folgt zu ändern.

    Bitte ändern schrieb:

    Also nach einem Austritt ist jeweils nur ein Eintritt möglich oder umgekehrt.

    Die Intervalle berechnete ich schon mit Qt QDate, boost Date Time, ging auch mit Excel.



  • Sehr geehrte Community,

    ich möchte mich für den verbalen Ausrutscher bezüglich .filmore und C14 entschuldigen. Vor allem wegen kurzfristigen begrenzten Umständen sind diese mir versehentlich passiert.

    Die Antwort mit der geometrische Verteilung hat mir sehr geholfen und ich möchte mich dafür bedanken.

    Inzwischen bin ich zum Thema auch auf die Ereigniszeitanalyse gestossen (https://de.wikipedia.org/wiki/Ereigniszeitanalyse).

    Wie man das ganze mit maschinellem Lernen verbindet, weiss ich noch immer nicht.



  • Also wenn ich die Dauer vor dem Aufenthalt, die Dauer des Aufenthalts und die Dauer nach dem Aufenthalt in eine 3D-Punktwolke tue, muss ich da etwas Spezielles beachten?

    Die Dauer nach dem Aufenthalt ist ja dann beim nächsten 3D-Punkt die Dauer vor dem Aufenthalt.


Anmelden zum Antworten