Die Datentäuschung | Der New Yorker

Und warum die Mühe? In den 1930er Jahren hatte die Fantasie der technologischen Vorherrschaft ihren vollsten Ausdruck in der Technokratie-Bewegung gefunden, die während der Depression mit Sozialismus und Faschismus als Alternative zu Kapitalismus und liberaler Demokratie konkurrierte. „Technokratie, kurz gesagt, ist die Anwendung der Wissenschaft auf die Gesellschaftsordnung“, erklärte 1939 eine Broschüre mit dem Titel „Technocracy in Plain Terms“. ihre Ersetzung durch Ingenieure, die nach Zahlen regieren würden. „Geld kann nicht verwendet werden, und seine Kauffunktion muss durch eine wissenschaftliche Maßeinheit ersetzt werden“, führte die Broschüre aus und versicherte den Zweiflern, dass fast jeder „wahrscheinlich unter einem Technat leben würde“. Unter dem Technat würden die Menschen keine Namen mehr brauchen; Sie würden Nummern haben. (Ein Technokrat nannte sich 1x1809x56.) Sie zogen sich graue Anzüge an und fuhren graue Autos. Wenn Ihnen das bekannt vorkommt – Tech-Brüder und ihre grauen Hoodies und silbernen Teslas, Kryptowährung und die Abschaffung von Währungen – sollte es das auch. Als politische Bewegung geriet Technocracy in den 1940er Jahren in Ungnade, aber ihre Logik blieb bestehen. Der Großvater von Elon Musk war ein Anführer der Technocracy-Bewegung in Kanada; Er wurde verhaftet, weil er Mitglied war, und dann, kurz nachdem Südafrika seine neue Apartheid-Politik angekündigt hatte, zog er 1971 nach Pretoria, wo Elon Musk geboren wurde. Eines von Musks Kindern trägt seinen Namen X Æ A-12. Willkommen im Technat.

Der Übergang von einer Kultur der Zahlen zu einer Kultur der Daten begann während des Zweiten Weltkriegs, als die Statistik mathematischer wurde, hauptsächlich um vorhersagefähiger zu werden, was für Kriegsanwendungen erforderlich war, die alles von der Berechnung von Raketenflugbahnen bis zum Knacken von Codes umfassten. „Dies waren keine Daten auf der Suche nach verborgenen Wahrheiten über die Menschheit oder die Natur“, schreiben Wiggins und Jones. „Das waren keine Daten aus kleinen Experimenten, die in kleinen Notizbüchern aufgezeichnet wurden. Dies waren Daten, die durch ein dringendes Bedürfnis motiviert waren – in kurzer Zeit Antworten zu liefern, die zum Handeln anregen und Leben retten könnten.“ Diese Arbeit wurde während des Kalten Krieges als Instrument des nationalen Sicherheitsstaates fortgesetzt. Mathematische Modellierung, erhöhte Datenspeicherkapazität und Computersimulation trugen alle zur Mustererkennung und -vorhersage in der Geheimdienstarbeit, der Militärforschung, den Sozialwissenschaften und zunehmend auch im Handel bei.

Trotz des Nutzens, den diese Werkzeuge vor allem für Forscher in den Natur- und Naturwissenschaften – etwa bei der Erforschung von Sternen oder Molekülen – boten, beklagten Gelehrte auf anderen Gebieten die verzerrende Wirkung auf ihre Disziplinen. 1954 argumentierte Claude Lévi-Strauss, dass Sozialwissenschaftler „sich von der Hoffnungslosigkeit der ‚großen Zahlen‘ lösen müssen – dem Floß, an dem sich die Sozialwissenschaften, verloren in einem Ozean von Zahlen, hilflos festgeklammert haben“. Bis dahin hatten die nationalen Förderstellen ihre Prioritäten verschoben. Die Ford Foundation gab bekannt, dass sie sich zwar für den menschlichen Geist interessiere, aber nicht länger an nicht-vorhersagender Forschung in Bereichen wie Philosophie und politischer Theorie interessiert sei und verspottete solche Disziplinen als „polemisch, spekulativ und vorwissenschaftlich“. Die beste Forschung würde, wie die Physik, auf „Experimenten, der Anhäufung von Daten, der Formulierung allgemeiner Theorien, Versuchen zur Überprüfung der Theorien und Vorhersagen“ beruhen. Wirtschafts- und Politikwissenschaften wurden zu prädiktiven Wissenschaften; andere Arten des Wissens in diesen Bereichen verkümmerten.

Die Digitalisierung des menschlichen Wissens schritt rasch voran, und Bibliotheken verwandelten Bücher zuerst in Mikrofiche und Mikrofilm und dann – durch optische Zeichenerkennung, deren Ursprünge bis in die 1930er Jahre zurückreichen – in Bits und Bytes. Das in den 1950er Jahren gegründete Gebiet der künstlichen Intelligenz versuchte zunächst, Beweise zu sichten, um die Regeln zu identifizieren, nach denen Menschen argumentieren. Dieser Ansatz stieß in einem Moment, der als „Engpass beim Wissenserwerb“ bekannt ist, an eine Wand. Der Durchbruch kam mit Fortschritten in der Rechenleistung und der Idee, die riesigen Datenspeicher zu nutzen, die sich seit Jahrzehnten in der Welt von Regierung und Industrie angesammelt hatten, um Maschinen beizubringen, sich selbst beizubringen, indem sie Muster erkennen: Maschinen lernen. „Spione leisteten Pionierarbeit bei der groß angelegten Datenspeicherung“, schreiben Wiggins und Jones, aber „beginnend mit den Daten aus Flugreservierungssystemen in den 1960er Jahren begann die Industrie, Daten über Kunden mit einer sich rapide beschleunigenden Geschwindigkeit zu sammeln“, und sammelte alles aus Kreditkartentransaktionen und Mietwagen bis hin zu Bibliothekskassenaufzeichnungen. 1962 forderte John Tukey, ein Mathematiker bei Bell Labs, einen neuen Ansatz, den er „Datenanalyse“ nannte, den Vorfahren der heutigen „Datenwissenschaft“. Es hat seinen Ursprung in der Geheimdienstarbeit und dem Drang, den Sowjets zuvorzukommen: Was würden sie als nächstes tun? Dass Netflix vorhersagen kann, was Sie sehen möchten, dass Google weiß, welche Websites Ihnen dienen sollen – diese Wunder sind das Ergebnis von Tools, die während des Kalten Krieges von Spionen entwickelt wurden. Handel im 21. Jahrhundert ist Spionage für Profit.

Während all dies geschah – die Anhäufung von Daten, das Aufkommen des maschinellen Lernens und die Verwendung von Computern nicht nur zum Rechnen, sondern auch zum Kommunizieren – fragten sich die besten Denker dieser Zeit, was dies für die Menschheit in der Zukunft bedeuten könnte. 1965 schrieb der brillante und weitsichtige Ingenieur J. C. R. Licklider, ein Hauptpionier des frühen Internets, „Libraries of the Future“, in dem er die vielen Nachteile von Büchern betrachtete. „Wenn die menschliche Interaktion mit dem Wissensbestand als dynamischer Prozess verstanden wird, der wiederholte Untersuchungen und Vergleiche sehr vieler kleiner und verstreuter Teile beinhaltet, dann wird jedes Konzept einer Bibliothek, das mit Büchern in Regalen beginnt, sicher auf Schwierigkeiten stoßen“, schrieb Licklider . „Eine Million Bücher in zehntausend Regalen zu durchsuchen“, erklärte er, ist ein Albtraum. „Wenn Informationen in Büchern gespeichert sind, gibt es keine praktische Möglichkeit, die Informationen vom Geschäft zum Benutzer zu übertragen, ohne das Buch oder das Lesegerät oder beide physisch zu bewegen.“ Aber wandeln Sie Bücher in Daten um, die von einem Computer gelesen werden können, und Sie können Daten viel einfacher vom Speicher zum Benutzer und zu einer beliebigen Anzahl von Benutzern verschieben. Er nahm den Inhalt aller in der Library of Congress aufbewahrten Bücher als Stellvertreter für die Gesamtsumme des menschlichen Wissens, betrachtete mehrere Schätzungen seiner Größe und stellte fest, dass er sich alle paar Jahrzehnte verdoppelte. Auf der Grundlage dieser Zahlen würde die Summe des menschlichen Wissens in Form von Daten im Jahr 2020 etwa ein Dutzend Petabyte betragen. Ein Zettabyte ist ein Petabyte mit sechs weiteren Nullen dahinter. Also lag Licklider, der wirklich ein Genie war, um den Faktor Hunderttausend daneben.

Denken Sie nur an die Milliarden von Dokumenten, die die US-Regierung als „klassifiziert“ betrachtet, eine Zahl, die jedes Jahr um fünfzig Millionen zunimmt. Nach Treu und Glauben durchgeführte Recherchen legen nahe, dass bis zu neun von zehn dieser Dokumente wirklich nicht klassifiziert werden sollten. Leider macht niemand große Fortschritte bei der Deklassifizierung (Tausende von Dokumenten, die sich beispielsweise auf die Ermordung von JFK im Jahr 1963 beziehen, bleiben geheim). Das ist ein Problem für das reibungslose Funktionieren der Regierung, für die Geschichtsschreibung und nicht zuletzt für ehemalige Präsidenten und Vizepräsidenten.

In „The Declassification Engine: What History Reveals About America’s Top Secrets“ (Pantheon) verwendet der Historiker Matthew Connelly Tools, die ursprünglich für Geheimdienst- und Spionageabwehrzwecke entwickelt wurden – Verkehrsanalyse, Erkennung von Anomalien und dergleichen –, um das aufzubauen, was er eine „Deklassifizierung“ nennt engine“, eine „Technologie, die dabei helfen könnte, wirklich sensible Informationen zu identifizieren“, beschleunigen die Deklassifizierung von allem anderen und liefern nebenbei wichtige historische Erkenntnisse. (Connelly ist wie Wiggins und Jones mit dem Data Science Institute von Columbia verbunden.)

Das Problem ist dringend und das Projekt vielversprechend; die Ergebnisse können überwältigend sein. Nachdem Connelly und sein Team beispielsweise Millionen von freigegebenen Dokumenten aus der Reihe „Foreign Relations of the United States“ des Außenministeriums gescannt hatten, identifizierten sie die Wörter, die am wahrscheinlichsten vor oder nach redigiertem Text erscheinen, und stellten fest, dass „Henry Kissingers Name häufiger vorkommt als doppelt so oft wie alle anderen.“ (Kissinger, der bekanntermaßen geheimnisvoll war, war von 1973 bis 1977 Außenminister.) Das ist ein bisschen so, als würde man ein Kartierungstool bauen, es auf Google Earth loslassen und zu dem Schluss kommen, dass es in den Vororten mehr Einfahrten gibt als in den Vororten die Stadt.

Zu Beginn des 21. Jahrhunderts wurde die kommerzielle, staatliche und akademische Analyse von Daten als „Datenwissenschaft“ definiert. Von nur einem Werkzeug zur Wissensproduktion ist es in vielen Bereichen zum einzigen Werkzeug geworden. An Hochschulen im ganzen Land schießen Data-Science-Kurse und -Institute sowie ganze Data-Science-Schulen wie Löwenzahn im Frühling aus dem Boden, und Data Scientists sind eine der am schnellsten wachsenden Beschäftigungskategorien in den Vereinigten Staaten. Das Aufkommen einer neuen Disziplin ist aufregend, und es wäre noch aufregender, wenn die Menschen immer noch alle vier Schubladen dieses Aktenschranks mit vier Schubladen öffnen würden, anstatt auf alle anderen Arten des Wissens zu verzichten. Wiggins und Jones achten sorgfältig auf diese Gefahr. „In ihrer anmaßendsten Form wird die Datenwissenschaft als eine Meisterdisziplin präsentiert, die in der Lage ist, die Wissenschaften, die Wirtschaftswelt und die Regierungsführung selbst neu auszurichten“, schreiben sie.

Es ist leicht, an die Übel zu denken, die der überhebliche Enthusiasmus für Zahlen vor einem Jahrhundert vom IQ bis zum BIP verursacht hat ein Teil der Bay Area, die jetzt als Cerebral Valley bekannt ist). Die schlimmsten dieser Übel haben meistens damit zu tun, Vorhersagen über menschliches Verhalten zu treffen und Ressourcen entsprechend aufzuteilen: zum Beispiel die Verwendung von Algorithmen, um Kautionen oder Strafen für Personen festzulegen, die wegen Verbrechen angeklagt oder verurteilt wurden. Connelly schlägt vor, dass die computergestützte Untersuchung von freigegebenen Dokumenten als „funktionelles Äquivalent zu CT-Scans und Magnetresonanztomographie zur Untersuchung der Körperpolitik“ dienen könnte. Er argumentiert, dass „Geschichte als Datenwissenschaft sich auf die strengste Art und Weise beweisen muss: indem sie Vorhersagen darüber macht, was neu verfügbare Quellen enthüllen werden.“ Aber Geschichte ist keine Vorhersagewissenschaft, und wenn sie es wäre, wäre sie keine Geschichte. Rechtswissenschaftler machen den gleichen Schritt. In „The Equality Machine: Harnessing Digital Technology for a Brighter, More Inclusive Future“ (PublicAffairs) argumentiert Orly Lobel, Rechtsprofessor an der University of San Diego, dass die Lösung für Vorurteile in Algorithmen darin besteht, bessere Algorithmen zu schreiben. In Ordnung, außer dass das Ergebnis immer noch von Algorithmen beherrscht wird. Was wäre, wenn wir aufhören würden, uns an die Flut von Daten zu klammern, in den Ozean der Geheimnisse zurückkehren und nach Fakten fischen würden?

1997, als Sergey Brin Doktorand in Stanford war, schrieb er eine Listserv-Nachricht über die möglichen bösartigen Folgen der Erkennung von Mustern in Daten und deren Verwendung, um Vorhersagen über menschliches Verhalten zu treffen. Er hatte eine vage Vorstellung, dass Diskriminierung zu den wahrscheinlichen „Ergebnissen von Data Mining“ gehörte. Er betrachtete die Versicherungsbranche. „Autoversicherungsunternehmen analysieren Unfalldaten und legen Versicherungstarife für Einzelpersonen nach Alter, Geschlecht und Fahrzeugtyp fest“, betonte er. „Wenn es ihnen gesetzlich erlaubt wäre, würden sie auch Rasse, Religion, Behinderung und alle anderen Attribute verwenden, die ihrer Meinung nach mit der Unfallrate zusammenhängen.“ Versicherer haben Risiken schon vor dem Kodex von Hammurabi, vor fast viertausend Jahren, minimiert. Es ist eine schrecklich interessante Geschichte, aber für Brin war dies eindeutig ein flüchtiger Gedanke, nicht der Beginn einer Untersuchung der Geschichte, Sprache, Philosophie und Ethik. Er wusste nur, dass er die Welt nicht noch schlimmer machen wollte. „Sei nicht böse“ wurde zum Leitbild von Google. Aber wenn man die Gehirne von Menschen in Gläser steckt und alle seine Bücher verbrennt, passieren oft schlimme Dinge. ♦

source site

Leave a Reply