Gedanken zur Schwellwertfindung

Jay1980

Servus,

ich lasse zweimal Werte durch einen Algorithmus berechnen. Es kommen immer Werte zwischen 1 und 0 raus, da der Algorithmus normiert wurde.

Bei der ersten Berechnung gibt es einen realen Hintergrund, bei der zweiten Berechnung wird der reale Hintergrund durch Zufallsverhalten ersetzt. Vergleicht man dann die gelieferten Werte, dann liegen die Zufallswerte niedriger als die Werte mit realem Hintergrund. Für bestimmte reale Werte kann man dann sagen, ob dieser durch Zufall erklärbar ist.

Schaut man sich die beiden sortierten Werteausgaben als Graph an, dann sinkt die Kurve schnell ab und geht in einen langen Buckel über.

Nun soll ich da einen passenden Schwellwert finden, ab wann der real gelieferte Wert nicht via statistischem Rauschen zu erklären ist. Nehm ich den Zufalls-Max-Wert dann kann es sich da ja um einen Ausreisser handeln, die Schwelle ist ggf. viel zu hoch. Besser ist wohl das 99te Perzentil.

Ich suche nach wissenschaftlichen Quellen oder Vorlesungs-Skripte, die sich dieser Thematik widmen, ich kenne aber die mathematischen Fachbegriffe nicht, damit ich selbst suchen kann.

Danke vorab für etwas Aufklärung.

Prof84

http://de.wikipedia.org/wiki/Resilient_Propagation
http://de.wikipedia.org/wiki/Backpropagation
http://de.wikipedia.org/wiki/Statistische_Signifikanz

otze

Prof84 schrieb:

http://de.wikipedia.org/wiki/Resilient_Propagation
http://de.wikipedia.org/wiki/Backpropagation

Diese Lösung ist perfekt für ein anderes Problem.

http://de.wikipedia.org/wiki/Statistische_Signifikanz

Ja.

Mit dem Percentil liegst du schon richtig. Ich würde daher auch mittelwert und Varianz berechnen und dann ein Percentil verwenden. 99% einseitig wird aber wohl zu krass sein, da wirste wohl fast jedes Ergebnis verwerfen.

Anderer Ansatz: du hast scheinbar echte Daten und diese Rauschdaten. Dann kannst du folgendes machen um einen Schwellwert zu berechnen:

schau dir Schwellwerte in einem Raster s=0,0.1,...,1 an. Berechne nun für jeden Schwellwert und für alle daten (x,y) (x dein Wert und y binärvariable echt oder Rauschen)
f(x,s) = (x>s) //deine Entscheidungsfunktion die x->y für einen Schwellwert abbildet
E(x,y,s) = (f(x,s) != y) //deine Fehlerfunktion: Fehler = 1 wenn falsch
Klassifiziert wurde

und wähle nun den Schwellwert s, der die Summe der E(x,y,s) für alle deine Trainingsdaten minimiert (also wo du am besten klassifizierst).

Gregor

Hi.

Plotte die Kurve bitte mal kurz mit Gnuplot oder so und zeig sie her.

Prof84

otze schrieb:

Prof84 schrieb:

http://de.wikipedia.org/wiki/Resilient_Propagation
http://de.wikipedia.org/wiki/Backpropagation

Diese Lösung ist perfekt für ein anderes Problem.

Warum magst Du Rprop nicht?

Jay1980

Anderer Ansatz: du hast scheinbar echte Daten und diese Rauschdaten. Dann kannst du folgendes machen um einen Schwellwert zu berechnen:

schau dir Schwellwerte in einem Raster s=0,0.1,...,1 an. Berechne nun für jeden Schwellwert und für alle daten (x,y) (x dein Wert und y binärvariable echt oder Rauschen)
f(x,s) = (x>s) //deine Entscheidungsfunktion die x->y für einen Schwellwert abbildet
E(x,y,s) = (f(x,s) != y) //deine Fehlerfunktion: Fehler = 1 wenn falsch
Klassifiziert wurde

und wähle nun den Schwellwert s, der die Summe der E(x,y,s) für alle deine Trainingsdaten minimiert (also wo du am besten klassifizierst).

Ja, ich habe Rauschdaten und reale Daten.
Das klingt gut, ich verstehe es nur nicht, kannst du mir da ein kleines Beispiel liefern und/oder einen Namen für das Verfahren.

Jay1980

Gregor schrieb:

Hi.

Plotte die Kurve bitte mal kurz mit Gnuplot oder so und zeig sie her.

Ich nähere hier mal die Kurve an, auf der Y-Achse ist der Zufallswert, auf der x-Achse die Kennung des Versuchs. Die Daten wurden vor der Anzeige sortiert, dass der höchste Messwert der erste Wert ist. Die Sternchen sind je ein Messpunkt und das X das 99te Perzentil.

|
|
|*
|--*
|--*
|--*
|---X
|----*****
|---------************************
|--------------------------------******
|--------------------------------------*
|---------------------------------------*
|----------------------------------------*
|__________________________________________

Die realen Werte sehen ähnlich aus, liegen aber deutlich höher, sogar wenn ich Werte über den maximalen Zufalls-Messwert nehme, liegen bis zu 50 % der realen Werte darüber. Die Idee das 99. Perzentil zu nehmen ist also lediglich, dass ich nicht so anfällig für Ausreißer bin.

Hoffe mein Plot im ASCII-Format ist aussagekräftig genug.

otze

Prof84 schrieb:

Warum magst Du Rprop nicht?

Ich mag Rprop. Nur hilft das hier überhaupt nicht weiter. Es fehlt hier gerade an eine Fehlerfunktion. Es ist nichtmal klar, ob differenzierbare Fehlerfunktionen überhaupt in betracht kommen. Wie kann man da einfach Rprop in den Raum werfen? Insbesondere wenn der Threadstarter offensichtlich gar keine Ahnung hat wie er sein Problem formulieren kann?
Ausserdem ist Rprop meistens nur zweite Wahl. Meistens hat man keine total ekelhafte Funktion und dann sind andere Verfahren mal locker um Größenordnungen schneller. Die Rprop-Familie (auch der improved rprop mit weight backtracking) sollte erst raus geholt werden, wenn alles andere versagt.
Davon ab ist die CMA-ES eh viel besser als Allround-Waffe

Ausserdem wurden hier niemals Neuronale Netze auch nur erwähnt, warum also Backpropagation?

@Jay les dich mal über regression, klassifikation und überwachtes lernen schlau. Dann solltest du genug Grundwissen haben um zu verstehen, was ich meinte.

Jay1980

otze: deine Antwort bringt mich nicht weiter, ich habe ein bisschen nachgelesen und das ist zu wenig konkret, als dass ich es ummünzen kann.

otze

Jay1980 schrieb:

otze: deine Antwort bringt mich nicht weiter, ich habe ein bisschen nachgelesen und das ist zu wenig konkret, als dass ich es ummünzen kann.

du bist slebst zu unkonkret für genaueres. Ich gebe dir Buzzwords mit denen du dir Wissen aneigenen kannst, um konkreter zu werden.

Ich kann dich natürlich auch komplett ins kalte Wasser werfen:

http://www.stanford.edu/~hastie/local.ftp/Springer/ESLII_print5.pdf