Wenn Grafiken eine Frage von Leben und Tod sind


Wo van Langren den Bereich der Längsschnittschätzungen in eine Linie abstrahiert hatte, war Playfair noch weiter gegangen. Er entdeckte, dass man die Zeit anhand ihrer Position auf der Seite kodieren konnte. Diese Idee mag für ihn selbstverständlich gewesen sein. Friendly und Wainer beschreiben, wie sein Bruder in Playfairs jungen Jahren eine Möglichkeit erklärt hatte, die täglichen Höchsttemperaturen über einen längeren Zeitraum aufzuzeichnen: Er solle sich ein paar Thermometer hintereinander vorstellen und seine Temperaturwerte aufzeichnen, als würde er die verschiedenen Werte nachzeichnen Quecksilberwerte; Von dort aus war es nur ein kleiner Schritt, das Bild des Thermometers in den Hintergrund treten zu lassen, mit einem Punkt den oberen Rand der Quecksilbersäule darzustellen und die Punkte von links nach rechts auf der Seite anzuordnen. Durch die Visualisierung der Zeit auf der x-Achse hatte Playfair ein Werkzeug geschaffen, um Bilder aus Zahlen zu machen, das ein Portal zu einer viel tieferen Verbindung mit Zeit und Entfernung bot. Als das Industriezeitalter anbrach, erwies sich dies als lebensrettende Erkenntnis.

Damals, als Fernreisen mit Pferdekutschen durchgeführt wurden, waren die Abfahrtszeiten eher suggestiv als endgültig. Wo Zeitpläne existierten, wurden sie oft neben Vorbehalten aufgeführt, wie z. B. „Unfälle ausgenommen!“. oder „Gott erlaubt!“ Mit der Öffnung der Personenbahnen in den zwanziger und dreißiger Jahren wurden zwar Fahrzeiten ausgeschrieben, aber ohne landesweit vereinbarte Zeit- und Zeitzonen blieb deren Pünktlichkeit weit hinter modernen Standards zurück. Als George Hudson, der englische Tycoon, der als Railway King bekannt ist, mit Daten konfrontiert wurde, die zeigen, wie oft seine Züge verspätet fuhren, konterte er mit den Daten, wie oft seine Züge zu früh waren, und bestand darauf, dass seine Bahn netto ungefähr verkehrte pünktlich.

Als Zugreisen immer beliebter wurden, war die Geduld nicht mehr das einzige Opfer dieses Systems: Es kam zu Frontalkollisionen. Da immer mehr Linien und Bahnhöfe hinzugefügt wurden, brauchten die Bahnbetreiber eine Möglichkeit, Unfälle zu vermeiden. Ein großer Durchbruch kam aus Frankreich mit einem eleganten neuen Grafikstil, der erstmals von dem Eisenbahningenieur Charles Ibry demonstriert wurde.

In einer Präsentation vor dem französischen Minister für öffentliche Arbeiten im Jahr 1847 zeigte Ibry eine Karte, die gleichzeitig die Standorte aller Züge zwischen Paris und Le Havre in einem Zeitraum von 24 Stunden anzeigen konnte. Wie Playfair benutzte Ibry die horizontale Achse, um das Vergehen der Zeit zu bezeichnen. Jeder Millimeter im Durchmesser entsprach zwei Minuten. In der oberen linken Ecke war eine Markierung für den Pariser Bahnhof, und dann, entlang der vertikalen Achse, wurde jede Station entlang der Strecke nach Le Havre markiert. Sie wurden entfernungsgenau positioniert, wobei ein Kilometer in der physischen Welt auf der Grafik zweieinhalb Millimetern entspricht.

Mit den so aufgestellten Achsen erschienen die Züge auf der Grafik als einfache diagonale Linien, die von links nach rechts strichen, während sie über Distanz und Zeit fuhren. In den einfachsten Abschnitten des Schienennetzes ohne Abzweigungen, Kreuzungen oder Haltestellen konnten Sie wählen, wo die diagonale Linie jedes Zuges platziert werden sollte, um sicherzustellen, dass um sie herum genügend Abstand war. Kompliziert wurde es jedoch, wenn die Züge nicht im gleichen Tempo fuhren. Je schneller der Zug, desto steiler die Strecke, so dass ein Personenschnellzug schnell von oben nach unten durchquerte, während langsamere Güterzüge als dünne Linien mit einem viel flacheren Winkel erschienen. Das Problem der Terminplanung bestand darin, eine Reihe von unterschiedlich gewinkelten Linien in einem Kasten so zu platzieren, dass sie sich nie unbeabsichtigt auf der Seite kreuzten und sich daher nie auf der Schiene trafen.

Eine Grafik aus dem Jahr 1878 zeigt jeden Zug zwischen Paris und Lyon in einem Zeitraum von 24 Stunden; die Kreuzungspunkte der Linien zeigen an, wo und wann Züge auf den Gleisen passieren würden.Quelle: Étienne-Jules Marey, „La méthode graphique dans les sciences expérimentales et principalement en physiologie et en médecine“

Diese Zugdiagramme sollten keine Illustrationen sein – sie sollten nicht überzeugen oder konzeptionelle Erkenntnisse liefern. Sie wurden als Instrument zur Lösung der komplizierten Komplexität des Fahrplans geschaffen, fast wie ein Rechenschieber. Sie stellten aber auch eine Karte eines abstrakten Begriffsraums dar, eines Ortes, an dem man, um den Statistiker John Tukey zu paraphrasieren, gezwungen war, zu bemerken, was man sonst nicht sehen würde.

Innerhalb eines Jahrzehnts wurden die Diagramme verwendet, um Zugfahrpläne auf der ganzen Welt zu erstellen. Bis vor kurzem zogen es einige Verkehrsabteilungen vor, mit der Hand statt mit dem Computer zu arbeiten, indem sie liniertes Papier und einen Bleistift verwendeten und das Lineal schärfer anwinkelten, um schnellere Züge auf der Strecke anzuzeigen. Und moderne Zugplanungssoftware verlässt sich stark auf genau diese Grafiken, die seit Ibrys Tagen im Wesentlichen unverändert sind. Im Jahr 2016 konnte ein Team von Datenwissenschaftlern herausfinden, dass eine Reihe unerklärlicher Störungen auf der MRT Circle Line in Singapur durch einen einzigen Schurkenzug verursacht wurden. An Bord schien der Zug normal zu funktionieren, aber wenn er andere Züge in den Tunneln passierte, löste er deren Notbremsen aus. Das Muster konnte nicht erkannt werden, wenn die Daten nach Zügen, Zeiten oder Orten sortiert wurden. Erst wenn eine Version von Ibrys Graph verwendet wurde, zeigte sich das Problem.

Bis zum 19. Jahrhundert, so berichten uns Friendly und Wainer, hatten die meisten modernen Formen von Datengrafiken – Tortendiagramme, Liniendiagramme und Balkendiagramme – eine eindimensionale Ansicht ihrer Daten. Playfairs Liniendiagramm der Navy-Ausgaben zum Beispiel befasste sich nur damit, wie sich diese eine Variable im Laufe der Zeit veränderte. Aber im Laufe des 19. Jahrhunderts begannen Graphen, sich von ihren eindimensionalen Wurzeln zu lösen. Das Streudiagramm, das einige auf den englischen Wissenschaftler John Herschel zurückführen und das Tufte als „das größte aller grafischen Designs“ bezeichnet, ermöglichte es statistischen Graphen, die Form von zwei kontinuierlichen Variablen gleichzeitig anzunehmen – Temperatur oder Geld oder Arbeitslosenquoten oder Weinkonsum – unabhängig davon, ob er eine reale physische Präsenz hatte oder nicht. Anstatt eine einzelne Linie zu zeigen, die einzelne Werte im Laufe der Zeit verbindet, könnten diese Diagramme Punktwolken darstellen, die jeweils nach zwei Variablen aufgetragen werden.

Ihr Aussehen ist sofort bekannt. Wie Alberto Cairo es in seinem jüngsten Buch „How Charts Lie“ formuliert, haben Streudiagramme ihren Namen aus einem bestimmten Grund: „Sie sollen den Verwandten zeigen Streuung der Punkte, ihre Streuung oder Konzentration in verschiedenen Regionen des Diagramms.“ Ein Blick auf eine Streuung ermöglicht es Ihnen, zu beurteilen, ob die Daten in die eine oder andere Richtung tendieren, und zu erkennen, ob sich Cluster ähnlicher Punkte in den Zahlen verbergen.

Ein berühmtes Beispiel stammt aus der Zeit um 1911, als die Astronomen Ejnar Hertzsprung und Henry Norris Russell unabhängig voneinander eine Streuung einer Reihe von Sternen erzeugten und ihre Leuchtkraft gegen ihre Farbe auftrugen und sich über das Spektrum von Blau bis Rot bewegten. (Die Farbe eines Sterns wird durch seine Oberflächentemperatur bestimmt; seine Leuchtkraft oder intrinsische Helligkeit wird sowohl durch seine Oberflächentemperatur als auch durch seine Größe bestimmt.) Das Ergebnis ist, wie Friendly und Wainer zugeben, „kein Graph von großer Schönheit“, aber es hat die Astrophysik revolutioniert. Das Streudiagramm zeigte, dass die Sterne nicht zufällig verteilt waren, sondern in Gruppen konzentriert waren, die nach Typ zusammengedrängt waren. Diese Cluster sollten sich als Heimat der Blauen und Roten Riesen sowie der Roten und Weißen Zwerge erweisen.

In Grafiken wie diesen nahm der Abstand zwischen zwei beliebigen Punkten auf der Seite eine völlig abstrakte Bedeutung an. Es hatte nichts mehr mit physischer Nähe zu tun; es bedeutete jetzt etwas Ähnliches wie Ähnlichkeit. Die Nähe innerhalb des Begriffsraums des Graphen bedeutete, dass zwei Sterne in ihren Eigenschaften gleich waren. Eine überraschende Anzahl von Sternen war, sagen wir, rötlich und trüb, weil sich herausstellte, dass der Rote Zwerg eine bedeutende Sternkategorie war; Die Art und Weise, wie Sterne dieser Kategorie im Streudiagramm gruppiert wurden, zeigte, dass sie konzeptionell nahe waren, nicht dass sie es physisch waren.

Aber wenn Sie Punktcluster in zwei Dimensionen finden könnten, warum nicht drei? Friendly und Wainer diskutieren ein dreidimensionales Streudiagramm, das unser Verständnis von Typ-2-Diabetes verbessert hat. 1979 stellten zwei Wissenschaftler, Gerald M. Reaven und R. G. Miller, bei einer Reihe von Patienten den Blutzuckerspiegel gegen die Insulinproduktion in der Bauchspeicheldrüse auf. Entlang einer dritten Achse fügten sie eine Metrik hinzu, die zeigt, wie effizient Insulin vom Körper verwendet wird. Herausgekommen ist eine dreidimensionale Struktur, die ein wenig wie ein Ei mit schlaffen Flügeln aussieht. Es ermöglichte Reaven und Miller, die Teilnehmer in drei Gruppen aufzuteilen – solche mit manifestem Diabetes, solche mit latentem Diabetes und diejenigen, die nicht betroffen waren – und zu verstehen, wie Patienten von einem Zustand in einen anderen übergehen könnten. Früher wurde angenommen, dass dem manifesten Diabetes das latente Stadium vorausgeht, aber die Grafik zeigte, dass der einzige „Weg“ von einem zum anderen durch die Region führte, die von den als normal eingestuften Personen besetzt war. Aus diesem Grund und den Beweisen aus anderen Studien werden sie jetzt als zwei separate Krankheitsklassen betrachtet.

Wenn drei Dimensionen möglich sind, warum nicht vier? Oder vierhundert? Heute basiert ein Großteil der Data Science auf genau diesen hochdimensionalen Räumen. Es ist schwindelerregend, darüber nachzudenken, aber die Grundprinzipien sind die gleichen wie bei ihren Scatter-Plot-Vorgängern aus dem 19. Jahrhundert. Die Achsen könnten der Bereich möglicher Antworten auf einen Fragebogen auf einer Dating-Website sein, wobei Personen als Punkte in einem riesigen hochdimensionalen Raum schweben und ihre Positionen durch die Antworten festgelegt sind, die sie bei der Anmeldung gegeben haben. Im Jahr 2012 arbeitete Chris McKinlay, ein Student in Angewandter Mathematik, wie man Daten aus OkCupid abkratzt und nutzte diese Strategie – auf der Jagd nach Punkten in einer ähnlichen Region, in der Hoffnung, dass sich die Nähe in romantische Kompatibilität umsetzt. (Er sagt, das achtundachtzigste Mal war der Reiz.) Oder die Achsen könnten sich auf Ihre Reaktion auf einen Film in einem Streaming-Dienst beziehen oder die Zeit, die Sie damit verbringen, einen bestimmten Beitrag auf einer Social-Media-Site anzusehen. Oder sie könnten sich auf etwas Physisches beziehen, wie die DNA in Ihren Zellen: Die genetische Analyse, die verwendet wird, um auf unsere Vorfahren zu schließen, sucht nach Variabilität und Clustern innerhalb dieser abstrakten, konzeptionellen Räume. Es gibt subtile Verschiebungen in den Codes für Proteine, die in unserer DNA verstreut sind; oft haben sie keinen merklichen Einfluss auf unsere Entwicklung, können aber Hinweise auf die Herkunft unserer Vorfahren hinterlassen. Genetiker haben Millionen dieser kleinen Variationen gefunden, die besonders häufig von Personengruppen mit gemeinsamen Vorfahren geteilt werden können. Die einzige Möglichkeit, die Gruppen aufzudecken, besteht darin, die Variation in einem hochdimensionalen Raum zu untersuchen.

.

Leave a Reply