Statistische Signifikanz der Winrate bei World-of-Tanks



  • Hallo,

    beim online-Spiel World of Tanks treten immer 15 Spieler in je zwei Teams gegeneinander an um eine Panzerschlacht zu gewinnen.
    Die Teams werden dabei zufällig aus den gerade online befindlichen Spielern zusammengewürfelt, nach gewissen Regeln was die Fahrzeuge betrifft, wobei wir aber davon ausgehen, dass die Statistik/History der einzelnen Spieler dabei keine Rolle spielen.
    Es sind immer viele tausende Spieler online, so dass wir von einer guten Verteilung der Spielerskills ausgehen können.

    Eine Zentrale Statistik eines einzelnen Spielers ist nun seine "Winrate", d.h. das Verhältniss gewonnener Schlachten zu den insgesamt gespielten Schlachten.
    (Schlachten können auch unentschieden enden, dies kommt aber selten vor (<2%), do dass wir diese mal vernachlässigen.)
    Da der einzelne Spieler zwangsläufig nur einen geringen Anteil zum gelingen oder scheitern der Schlacht beiträgt, rangieren die Winrates um die 50% herum. Bessere Spieler werden aber auf lange Sicht ihre Winrate steigern können, da sie durch ihren Beitrag statistisch öfter zum siegreichen Team gehören werden.

    Die Frage ist nun, ab wie vielen Spielen eine bestimmte Winrate signifikant ist, d.h. nicht mehr durch blosse statistische Streuung erklärt werden kann. Konkret will ich die Anzahl Spiele wissen, ab der man mit hinreichender Sicherheit (zB 95%) sagen kann dass ein Unterschied von 1 Prozentpunkt in der Winrate zwischen zwei Spielern auch wirklich bedeutet dass der eine Spieler besser spielt als der andere.

    Meine Gedanken waren dabei dass ich die Ergebnisse der Überlegungen zum Münzwurf übernehmen kann, d.h. ich definiere die Nullhypothese als die Aussage dass es keine Abhängigkeit vom Spielerskill gibt und die wahre Winrate des Spielers langfristig 50% beträgt, also dem Werfen einer idealen Münze äquivalent ist.
    Das versucht man nun zu widerlegen mit den tatsächlichen Werten der Winrate des Spielers.

    Dazu kann ich dann http://en.wikipedia.org/wiki/Checking_whether_a_coin_is_fair anwenden, welches mit der http://en.wikipedia.org/wiki/Checking_whether_a_coin_is_fair#Estimator_of_true_probability -Methode auf folgende Formel für die Anzahl der Spiele hinausläuft:

    n = Z^2 / (4 * E^2)

    Wobei mit Z = Signifikanzniveau := 2 (>95% Sicherheit),
    E = Fehlertoleranz := 0.01 (weil ich Unterschiede in der Grössenordnung von 1 Prozentpunkt "auflösen" will)

    ergibt sich
    n = 10000

    Was sich nach viel anhört aber bei etwas nachdenken durchaus plausibel erscheint.
    Beide müssen also ca. 10000 Spiele gespielt haben um mit sehr guter Sicherheit sagen zu können dass Spieler A mit einer Winrate von 51% wirklich besser gespielt hat als Spieler B mit Winrate 50%.

    Meine Frage:
    Ist die Herangehensweise so in Ordnung?
    Gibt es Kritik an der Begründung, oder einen groben Denkfehler?
    Bessere Lösung?



  • Führt ein besserer Spieler überhaupt dazu, daß die Schlacht gewonnen wird?

    Mir fehlt da noch ein gutes Stück in der Modellierung. Zum Beispiel,
    wenn Spieler A besser spielt als Spieler B, und die andferen 28 Spieler zufällig sind, wie groß ist die Wahrscheinlichkeit, daß Team A gewinnt? Fürchte, da kommt schon eine recht kleine Wahrscheinlichkeit raus.

    Aber andersrum müßte man es ja wissen. Wenn Team A gewonnen hat, wie wahrscheinlich ist Spieler A besser als Spieler B?



  • volkard schrieb:

    Führt ein besserer Spieler überhaupt dazu, daß die Schlacht gewonnen wird?

    Nicht immer, aber öfter.
    Das ist ja gerade um was es geht.
    Das wollen wir ja gerade zeigen.
    Wenn ein Spieler nach 10000 Schlachten eine Winrate von 51% aufweisen kann, dann *hat* er besser als der Durchschnittsspieler dazu beigetragen dass Schlachten gewonnen wurden.
    D.h. "besser" ist gerade ausschliesslich so definiert dass sein Team im Grenzfall hoher Schlachtenzahl öfter gewinnt.
    Deshalb kann er natürlich immer noch die nächste Schlacht hoffnungslos verlieren.

    volkard schrieb:

    wenn Spieler A besser spielt als Spieler B, und die andferen 28 Spieler zufällig sind, wie groß ist die Wahrscheinlichkeit, daß Team A gewinnt? Fürchte, da kommt schon eine recht kleine Wahrscheinlichkeit raus.

    Natürlich ist sie klein. (Also die Wahrscheinlichkeit für Sieg ist 0.5+epsilon und epsilon ist klein, was du wohl meintest). Aber na und?
    Wir nehmen als Nullhypothese ja sogar epsilon=0 an. Deshalb ist das doch schon mit drin.
    Nur ab 10000 Spielen und Winrate 51% lässt sich epsilon=Null nicht mehr halten.
    Deshalb muss n ja auch so gross werden.



  • PS: Also was ich sagen will ist: Das schöne am statistischen Grenzfall der grossen Anzahl von Schlachten ist ja grade dass wir nicht mehr modellieren müssen wie und warum ein besserer Spieler zum Sieg des Teams beiträgt. Er hat es statistisch einfach getan. Und deshalb nennen wir ihn "besser".



  • scrontch schrieb:

    Wenn ein Spieler nach 10000 Schlachten eine Winrate von 51% aufweisen kann, dann *hat* er besser als der Durchschnittsspieler dazu beigetragen dass Schlachten gewonnen wurden.

    Genau das müßte ausgezählt werden.

    scrontch schrieb:

    D.h. "besser" ist gerade ausschliesslich so definiert dass sein Team im Grenzfall hoher Schlachtenzahl öfter gewinnt.

    Nicht vertauschen "öfter gewonnen hat" und "öfter gewinnen wird". Ab wievielen Spielen man die beiden Bedeutungen gleichsetzen darf (und dabei zu 95% trifft), müßte man auszählen, die Daten dafür wird wohl nur der Betreiber haben. Denke nicht, daß man das aus theoretischen Überlegungen ableiten kann.



  • Ach schon gut ...



  • @volkard:
    Hmm, verstehe nicht was du sagen willst.
    "öfter gewonnen hat" == "besser", unter der Bedingung n hinreichend hoch, s.o.
    PS: Alle Ergebnisse de Spiels sind öffentlich, siehe z.B. http://www.noobmeter.com/serverTop/eu/PR/
    Wie man hier sieht korrelieren die diversen (a priori modellierten) "Performance" ratings stark mit hoher Winrate, und dies bei schon viel geringerer Schlachtenzahl.

    @knivil:
    Ja, bitte? nur zu.



  • ist das nicht zu kompliziert`?
    kann man nicht einfach die treffer zählen oda so? 😕



  • 10k Spiele für 95% Signifikanz sieht plausibel aus.

    Als WoT Spieler frage ich mich hier aber nach dem Warum?
    Aus Erfahrung erkennt man schnell, dass bereits 2k-3k Spiele ausreichen um sagen zu können die WR eines Spielers ist(umgangsprachlich) nicht mehr zufällig.

    Viel interessanter ist doch die Gefährlichkeit eines Spielers, also die Kombination und Gewichtung aus Winrate(Gesamt und im aktuellen Panzer), Panzerwahl(OP oder UP), Erfahrung(# Spiele) und Erfahrung im Panzer(# Spiele im konkreten Panzer).



  • Was kommt für n raus, angenommen jedes Team besteht nur aus 2 Spielern?



  • WoT Spieler schrieb:

    10k Spiele für 95% Signifikanz sieht plausibel aus.

    Als WoT Spieler frage ich mich hier aber nach dem Warum?
    Aus Erfahrung erkennt man schnell, dass bereits 2k-3k Spiele ausreichen um sagen zu können die WR eines Spielers ist(umgangsprachlich) nicht mehr zufällig.

    Stimme dir da vom Gefühl her zu.
    Deshalb hab ich ja nach Fehlern in der Methode gefragt, weil die Anzahl spiele hoch klingt.
    Andererseits setzen wir eine Signifikanz mit wissenschaftlichem Anspruch voraus.
    Wahrscheinlich ist unser "Gefühl" schon mit Z=1 => N=2500 zufrieden.

    WoT Spieler schrieb:

    Viel interessanter ist doch die Gefährlichkeit eines Spielers, also die Kombination und Gewichtung aus Winrate(Gesamt und im aktuellen Panzer), Panzerwahl(OP oder UP), Erfahrung(# Spiele) und Erfahrung im Panzer(# Spiele im konkreten Panzer).

    Und daraus werden dann so Ungeheuer wie WN7 mit ca. 20 magischen Parametern über deren genauen Wert dann Monatelang gefeilscht wird. Nein Danke. Das ist ja was die Winrate so unglaublich gut macht: Sie ist der simpelst mögliche Messwert mit echter direkter spielrelevanter Aussage. (Da mitteln sich sogar so Sachen wie OP/UP Panzer raus). Aber halt erst nach vielen Gefechten.



  • cooky451 schrieb:

    Was kommt für n raus, angenommen jedes Team besteht nur aus 2 Spielern?

    Fangfrage?
    Oben fliesst die Spielerzahl nicht ein.
    D.h. naja, indirekt. Denn ich gehe davon aus das der eigene Beitrag gering ist (wegen hoher Spielerzahl), daher die Winrate nicht weit von 50% weg liegt, weshalb ich die Analogie zum Münzwurf erst machen darf.
    Wobei, selbst wenn wir ein beliebiges 1v1-Spiel (bsp Tennis) anschauen, und zwei Spieler mit 50% und 51% Winrate vergleichen kann IMHO die gleiche Überlegung verwendet werden. Wohlgemerkt es spielen nicht A gegen B, sondern A und B spielen jeweils 1v1 gegen eine zufällige Auswahl aus der Gesamtheit aller anderen Spieler.
    Auch da müssten wir wieder bis n=10k warten um eine signifikante Aussage zu treffen, das B besser ist als A.



  • scrontch schrieb:

    Beide müssen also ca. 10000 Spiele gespielt haben um mit sehr guter Sicherheit sagen zu können dass Spieler A mit einer Winrate von 51% wirklich besser gespielt hat als Spieler B mit Winrate 50%.

    Das stimmt glaube ich noch nicht.
    Mit je 10000 Spielen kannst du sagen, dass mit 95% Wahrscheinlichkeit die wahre Gewinnwahrscheinlichkeit von Spieler A im Interval [50%, 52%] und von Spieler B im Interval [49%, 51%] liegt.
    Da sich die Intervalle überlappen, heisst das aber noch nicht, dass mit 95% Wahrscheinlichkeit Spieler A besser als Spieler B ist.
    Wenn man sich die Fehler beider Schätzer in 2D anschaut und davon ausgeht, dass sie unabhängig sind,
    kommt noch ein Faktor 1/sqrt(2) bei der Intervalbreite dazu (die Gerade durch (1,0) und (0,1) hat Abstand 1/sqrt(2) vom Ursprung), bzw. ein Faktor 2 bei den Spielen.
    Man bräucht also meiner Meinung nach sogar 20000 Spiele für die wissenschaftliche Qualität der Aussage "Spieler A ist besser als Spieler B" 😉

    PS:
    Alternative Erklärung: Die Wahrscheinlichkeitsverteilung der Summe bzw. Differenz der beiden Schätzfehler ist gerade die Faltung der Einzelfehler und hat so eine Standardabweichung von sqrt(2) mal die der Einzelfehler.



  • scrontch schrieb:

    Fangfrage?

    Teilweise. Ich bin der Meinung, es sollte einfließen, und zwar deutlich. Die "Streuung", also auch die Zahl benötigten Spiele, nimmt mit der Größe des Teams doch deutlich zu. Wenn wir jetzt mal ein 1v1 Spiel nehmen sollten eigentlich schon ein paar wenige Spiele (10 - 50, je nach konkretem Spiel) reichen um relativ gut einschätzen zu können, welcher Spieler besser ist. (Insbesondere wenn man wie du annimmt, dass winrate == gut; das Spiel also kein Glück beinhält, dann sollte bei einem 1v1 Spiel nämlich alles bei 100% liegen.)



  • cooky451 schrieb:

    Ich bin der Meinung, es sollte einfließen, und zwar deutlich. Die "Streuung", also auch die Zahl benötigten Spiele, nimmt mit der Größe des Teams doch deutlich zu. Wenn wir jetzt mal ein 1v1 Spiel nehmen sollten eigentlich schon ein paar wenige Spiele (10 - 50, je nach konkretem Spiel) reichen um relativ gut einschätzen zu können, welcher Spieler besser ist. (Insbesondere wenn man wie du annimmt, dass winrate == gut; das Spiel also kein Glück beinhält, dann sollte bei einem 1v1 Spiel nämlich alles bei 100% liegen.)

    Du machst wie ich schon oben angenommen habe glaube ich einen Denkfehler.
    Es spielen nicht A und B gegeneinander. (Dann würden weniger Spiele reichen, und der Ausgang wäre besser vorherzusagen)
    Stattdessen spielen *jeweils* A und B gegen viele Andere, einer Auswahl von noch viel mehr Anderen.
    Wenn dann nach 50 Spielen B 26 mal gewonnen hat und A nur 24 mal, sagt A: "Pah, ich hatte halt zufällig schwerere Gegner als du!"



  • C14 schrieb:

    ...

    Äh, ja, wahrscheinlich hast du recht.
    Wenn man die Formel nimmt, könnte man auch naiv E=0.005 (halbiert) wählen um sicher zu sein dass der maximale Fehler jeweils nur ein halbes Prozent beträgt und sich dann die Fehlerintervalle nicht mehr überschneiden. Dann wär's allerdings sogar ein Faktor 4 für die Anzahl der benötigten Spiele.



  • scrontch schrieb:

    Es spielen nicht A und B gegeneinander.

    Schon klar. Trotzdem hat ein Einzelner mehr Einfluss auf die Win-Rate, je kleiner das Team ist.

    scrontch schrieb:

    Wenn dann nach 50 Spielen B 26 mal gewonnen hat und A nur 24 mal, sagt A: "Pah, ich hatte halt zufällig schwerere Gegner als du!"

    Das hast du ja gerade ausgeschlossen, indem du volkard so nett erklärt hast dass Win-Rate = Skill. 😉 Hat allerdings keine Relevanz für meinen Punkt.



  • cooky451 schrieb:

    Das hast du ja gerade ausgeschlossen, indem du volkard so nett erklärt hast dass Win-Rate = Skill.

    Oh, neue Idee.

    Weil Win-Rate = Skill ist bereits beim ersten Spiel schon sicher, daß der mit mehr Winrate mehr Skill hat. Und zu jeder späteren Messung auch. Fertig.



  • cooky451 schrieb:

    scrontch schrieb:

    Es spielen nicht A und B gegeneinander.

    Schon klar. Trotzdem hat ein Einzelner mehr Einfluss auf die Win-Rate, je kleiner das Team ist.

    scrontch schrieb:

    Wenn dann nach 50 Spielen B 26 mal gewonnen hat und A nur 24 mal, sagt A: "Pah, ich hatte halt zufällig schwerere Gegner als du!"

    Das hast du ja gerade ausgeschlossen, indem du volkard so nett erklärt hast dass Win-Rate = Skill. 😉 Hat allerdings keine Relevanz für meinen Punkt.

    ... Bei sehr hoher Zahl von Spielen. Genau darum geht es doch: wie hoch muss ich die Zahl wählen, damit ich mit hoher WK die richtige Aussage treffe.

    Oder möchte von euch einer ernsthaft die these vertreten, dass der bessere spieler ggf. aufnlange sicht weniger spiele gewinnt als der schlechtere? Inwiefern ist der bessere dann besser wenn er weniger gewinnt?

    Entschuldigung, wollte nicht stören.



  • cooky451 schrieb:

    scrontch schrieb:

    Es spielen nicht A und B gegeneinander.

    Schon klar. Trotzdem hat ein Einzelner mehr Einfluss auf die Win-Rate, je kleiner das Team ist.

    scrontch schrieb:

    Wenn dann nach 50 Spielen B 26 mal gewonnen hat und A nur 24 mal, sagt A: "Pah, ich hatte halt zufällig schwerere Gegner als du!"

    Das hast du ja gerade ausgeschlossen, indem du volkard so nett erklärt hast dass Win-Rate = Skill. 😉 Hat allerdings keine Relevanz für meinen Punkt.

    Das dahinterstehende Modell ist:
    Jeder Spieler hat einen konstanten Skill s der streng monoton in eine konstante Gewinnwahrscheinlichkeit p für jedes Gefecht übersetzt wird. (Mittelung über alle unbekannten Umwelteinflüsse)
    Wenn es ein 1vs1-Spiel ist, dann ist die Umrechnung von s auf p sensitiver, d.h. man braucht nur geringfügig mehr skill für eine höhere Gewinnwahrscheinlichkeit.
    Insofern braucht man um einen konstanten skill-Unterschied zu messen weniger Gefechte, da der Gewinnwahrscheinlichkeits-Unterschied größer ist.

    Wir wollen aber nur herausfinden wer besser ist und da spielt es keine Rolle wie die Umrechnung von s auf p ist.
    Ein Spieler heisst besser, wenn sein Skill höher ist als der des Vergleichsspielers. Das ist aber genau dann der Fall wenn sein p höher ist.
    Es reicht also p zu messen und es spielt keine Rolle ob es ein 1vs1 oder 15vs15 Spiel ist.


Anmelden zum Antworten