Warum gibt es jetzt überall Elo-Bewertungen?

Im Oktober 2003 erstellte Mark Zuckerberg seine erste virale Website: nicht Facebook, sondern FaceMash. Damals, als Studienanfänger, hackte er sich in die Online-Wohnheimverzeichnisse von Harvard, sammelte eine riesige Sammlung von Porträtfotos von Studenten und erstellte daraus eine Website, auf der Harvard-Studenten ihre Klassenkameraden nach ihrer Attraktivität bewerten konnten, im wahrsten Sinne des Wortes und im übertragenen Sinne. Die Seite, ein gemeiner Streich, der in der Eröffnungsszene von erzählt wird Das soziale Netzwerk, erlangte so schnell so viel Anklang, dass Harvard innerhalb weniger Stunden seinen Internetzugang abschaltete. Die Mathematik, die FaceMash antreibt – und im weiteren Sinne Zuckerberg auf den Weg zum Aufbau des weltweit dominierenden Social-Media-Imperiums brachte – war Berichten zufolge ausgerechnet eine Formel für die Rangfolge von Schachspielern: das Elo-System.

Grundsätzlich dient eine Elo-Bewertung dazu, den Ausgang von Schachpartien vorherzusagen, indem jedem Spieler eine Zahl zugewiesen wird, die rein auf der Grundlage seiner Leistung schwankt. Wenn Sie einen etwas höherrangigen Spieler schlagen, steigt Ihre Wertung ein wenig, wenn Sie jedoch einen viel höherrangigen Spieler schlagen, steigt Ihre Wertung stark (und ihre Wertung sinkt umgekehrt stark). Je höher die Bewertung, desto mehr Spiele sollten Sie gewinnen.

Das war Elo entworfen für mindestens. Abgesehen von FaceMash und Zuckerberg haben Menschen Elo-Ratings für viele Sportarten – Fußball, Football, Basketball – und für so unterschiedliche Bereiche wie Dating, Finanzen und Primatologie eingesetzt. Wenn aus etwas ein Wettbewerb werden kann, dann ist es wahrscheinlich Elo-ed. Irgendwie ist ein einfacher Schachalgorithmus zu einem Allzweckwerkzeug zur Bewertung von allem geworden. Mit anderen Worten: Wenn es um die bevorzugte Art der Bewertung geht, haben Elo-Bewertungen die höchste Elo-Bewertung.

Der einfachste Weg, eine Rangfolge von Schachspielern oder Spielern in einem anderen Wettbewerbsspiel festzulegen, ist die Rangfolge nach Siegen und Niederlagen. Aber diese Messgröße ist offensichtlich fehlerhaft: Einerseits könnte ein mittelmäßiger Spieler einen ungeschlagenen Rekord aufbauen, indem er Neulinge besiegt, während ein Großmeister gegen andere Großmeister einige gewinnt und einige verliert. Zum anderen sagt eine einfache Sieg-Niederlage-Bilanz mehr darüber aus, wie gut ein Spieler war, als darüber, wie gut ein Spieler jetzt ist. Schon vor Elo gab es im Schach ein Bewertungssystem, das komplexer war als nur Siege und Niederlagen, aber Mitte der 1950er Jahre brach ein 13-jähriges Wunderkind namens Bobby Fischer es. Er war so schnell so gut geworden, dass die Rangliste – die die Qualität des Gegners eines Spielers nicht ausreichend berücksichtigte – nicht mithalten konnte. Offenbar als Reaktion darauf berief der US-Schachverband ein Komitee ein, um diese Mängel zu beheben, und übernahm 1960 ein System, das von einem ungarisch-amerikanischen Schachmeister und Physikprofessor namens Arpad Elo entwickelt wurde. Der Internationale Schachverband folgte ein Jahrzehnt später diesem Beispiel.

Mehr als 50 Jahre später ist Elos immer noch das Ranking-System der Wahl. Es wurde im Laufe der Zeit geändert und verschiedene Schachverbände verwenden leicht unterschiedliche Versionen (einige sind beispielsweise mehr oder weniger „schwungvoll“ gegenüber Siegen und Niederlagen), aber alle sind immer noch enge Variationen des Originals. Elo ist zur wichtigsten Zahl im Schach geworden. „Wenn jemand herausfindet, dass Sie Schach spielen, ist die unmittelbare Frage immer: ‚Wie ist Ihre Bewertung?‘“, erzählte mir Nate Solon, ein Schachmeister und Datenwissenschaftler, der einen wöchentlichen Schach-Newsletter schreibt. Das Elo-System wurde im Laufe der Zeit geändert und verschiedene Leitungsgremien verwenden leicht unterschiedliche Versionen, aber alle sind immer noch enge Variationen des Originals.

Aber Elo-Wertungen haben grundsätzlich nichts mit Schach zu tun. Sie basieren auf einer einfachen mathematischen Formel, die für jeden Eins-gegen-Eins-Nullsummenwettbewerb – also für so ziemlich alle Sportarten – genauso gut funktioniert. Im Jahr 1997 passte ein Statistiker namens Bob Runyan die Formel an, um nationale Fußballmannschaften zu bewerten – ein Projekt, das so erfolgreich war, dass die FIFA schließlich ein Elo-System für ihre offiziellen Ranglisten einführte. Nicht lange danach wandte der Statistiker Jeff Sagarin Elo an, um NFL-Teams außerhalb ihrer offiziellen Ligawertung einzustufen. Als die neue ESPN-eigene Version von Nate Silvers 538 im Jahr 2014 auf den Markt kam und damit begann, Elo-Wertungen für viele verschiedene Sportarten zu erstellen, ging es richtig los. Einige Sportarten erwiesen sich als schwieriger als andere. Insbesondere der NBA-Basketball habe einige Mängel des Systems aufgedeckt, sagte mir Neil Paine, ein auf Statistiken spezialisierter Sportjournalist, der früher bei 538 arbeitete. Beispielsweise wurden Schwergewichtsmannschaften ständig unterschätzt, was zum großen Teil daran lag, dass man Schwierigkeiten hatte, die Bedeutungslosigkeit eines Großteils der regulären Saison und die Tatsache zu erklären, dass keines der beiden Teams sich möglicherweise nicht allzu sehr bemühte, ein bestimmtes Spiel zu gewinnen. Das System ging von einer einheitlichen Motivation über jedes Team und jedes Spiel hinweg aus.

Es stellt sich heraus, dass so ziemlich alles als Eins-gegen-Eins-Nullsummenspiel dargestellt werden kann. Möglicherweise wurden Sie ohne Ihr Wissen anhand einer Elo-Bewertung bewertet. Elo-Bewertungen können zur Bewertung von Schülerbewertungen und zur Prüfung von Stoffen verwendet werden. Sie können verwendet werden, um Risikokapitalfirmen zu bewerten und verschiedene Arten der Ausbildung im Gesundheitswesen zu priorisieren. Bis vor ein paar Jahren nutzte Tinder Elo-Scores, um Benutzer nach ihrer Attraktivität zu bewerten und ihnen potenzielle Übereinstimmungen mit ähnlichen Bewertungen anzuzeigen. Informatiker haben damit begonnen, eine Elo-basierte Rangliste großer Sprachmodelle zu führen. Primatologen verwenden Elo-Bewertungen, um soziales Dominanzverhalten zu modellieren. Mindestens eine Person hat sie verwendet, um zu entscheiden, welches ihrer T-Shirts sie wegwerfen soll.

Der Reiz von Elo liegt auf der Hand: Menschen sind besessen von Daten, Statistiken und dem Ranking von Dingen, und Elo vermittelt ein Gefühl für quantitative Genauigkeit, für objektive Meritokratie. „Das Gute am Schach ist, dass man diese einzige Zahl hat, die sein Können ziemlich genau wiedergibt“, sagte mir Solon. Natürlich würde man sich auf einer gewissen Ebene etwas Ähnliches in anderen Aspekten des Lebens wünschen. „Aber die dunkle Seite davon ist, dass es Ihr Ansehen in der Schachwelt und sogar Ihr Selbstwertgefühl bestimmen kann … Es ist eine Art Fluch für viele Spieler, weil sie einfach auf diese Zahl fixiert sind.“ Das Tolle an Elo-Bewertungen ist, dass Sie genau wissen, wo Sie im Verhältnis zu allen anderen stehen, und das Schreckliche an Elo-Bewertungen ist, dass Sie genau wissen, wo Sie im Verhältnis zu allen anderen stehen.

In Wahrheit gibt Elo jedoch keine Garantie für irgendetwas. Die Rankings sind nur so gut bzw. meritokratisch wie die zugrunde liegenden Wettbewerbe. Sie haben nichts Magisches an sich: So ausgefeilt Ihre Formel auch sein mag: Wenn Ihre Eingaben Müll sind, werden es auch Ihre Ausgaben sein. Letzten Sommer hat jemand eine Website namens Elo Everything erstellt, die genau das tut, was man erwarten würde. Wenn Sie die Website besuchen, werden zwei Dinge angezeigt und gefragt: „Welche tun?“ Du Rang höher?“ Einige Beispiele für Konfrontationen sind die US-Regierung gegen Spinnen, Testosteron gegen Knusprigkeit und der One Ring von Herr der Ringe gegen den Tod von Adolf Hitler. Ihre Auswahl wirkt sich auf die Elo-Punktzahl der beiden umkämpften Dinge aus, und diese wirkt sich wiederum auf die Gesamtbestenliste aus. Derzeit stehen an der Spitze der Rangliste: (1) Das Universum, (2) Wasser, (3) Wissen, (4) Information und (5) Liebe. Sprache, Materie und die „weibliche Körperform“ waren ab heute Nachmittag ein Dreikampf um den 24. Platz.

Elo selbst erkannte die Grenzen seiner Erfindung. Seiner Auffassung nach war seine Funktion recht eng: „Es ist ein Messinstrument, kein Mittel zur Belohnung oder Bestrafung“, bemerkte er einmal. „Es ist ein Mittel, um Leistungen zu vergleichen, die relative Stärke zu beurteilen, nicht eine Karotte, die vor einem Kaninchen geschwenkt wird, oder ein Stück Bonbon, das einem Kind für gutes Benehmen gegeben wird.“ Zwangsläufig ist es so geworden.

source site

Leave a Reply