Erotik, Atwood und „Für Dummies“: Die Bücher hinter Metas generativer KI

Anmerkung des Herausgebers: Dieser Artikel ist Teil von Der Atlantik‘s Serie über Books3. Hier können Sie selbst in der Datenbank recherchieren und sich über deren Entstehung informieren Hier.

Diesen Sommer habe ich über einen Datensatz von mehr als 191.000 Büchern berichtet, die von Meta, Bloomberg und anderen ohne Erlaubnis zum Trainieren generativer KI-Systeme verwendet wurden. „Books3“, wie es genannt wird, basierte auf einer Sammlung raubkopierter E-Books, die Reiseführer, selbstveröffentlichte erotische Belletristik, Romane von Stephen King und Margaret Atwood und vieles mehr umfasste. Es steht nun im Mittelpunkt mehrerer Klagen gegen Meta von Autoren, die behaupten, dass seine Verwendung eine Urheberrechtsverletzung darstelle.

Bücher spielen eine entscheidende Rolle beim Training generativer KI-Systeme. Ihre langen, thematisch konsistenten Absätze geben Aufschluss darüber, wie man lange, thematisch konsistente Absätze erstellt – etwas, das für die Schaffung der Illusion von Intelligenz unerlässlich ist. Folglich nutzen Technologieunternehmen riesige Datensätze an Büchern, in der Regel ohne Genehmigung, Kauf oder Lizenzierung. (Anwälte von Meta argumentierten in einem kürzlich eingereichten Gerichtsverfahren, dass weder die Ergebnisse der generativen KI des Unternehmens noch das Modell selbst „im Wesentlichen ähnlich“ zu bestehenden Büchern seien.)

In seinem Trainingsprozess erstellt ein generatives KI-System im Wesentlichen eine riesige Karte englischer Wörter – der Abstand zwischen zwei Wörtern korreliert damit, wie oft sie im Trainingstext nahe beieinander erscheinen. Das endgültige System, ein sogenanntes großes Sprachmodell, wird plausiblere Antworten für Themen liefern, die im Trainingstext häufiger vorkommen. (Weitere Einzelheiten zu diesem Prozess können Sie über die Transformer-Architektur lesen, die Innovation, die den Boom großer Sprachmodelle wie LLaMA und ChatGPT auslöste.) Ein System, das beispielsweise hauptsächlich auf dem westlichen Kanon trainiert wurde, wird schlechte Antworten auf Fragen liefern über östliche Literatur. Dies ist nur einer der Gründe, warum es wichtig ist, die von diesen Modellen verwendeten Trainingsdaten zu verstehen, und warum es besorgniserregend ist, dass es im Allgemeinen so wenig Transparenz gibt.

Vor diesem Hintergrund sind hier einige der am häufigsten in Books3 vertretenen Autoren mit der ungefähren Anzahl der beigesteuerten Einträge aufgeführt:

Obwohl 24 der 25 hier aufgeführten Autoren Belletristikautoren sind (die einzige Ausnahme ist Betty Crocker), besteht der Datensatz insgesamt zu zwei Dritteln aus Sachbüchern. Es umfasst mehrere tausend technische Handbücher; mehr als 1.500 Bücher christlicher Verlage (darunter mindestens 175 Bibeln und Bibelkommentare); mehr als 400 Dungeons– Und Magic the Gathering–Themenbücher; und 46 Titel von Charles Bukowski. Nahezu jedes erdenkliche Thema wird abgedeckt (einschließlich Wie Sie Ihren Hund in 7 Tagen stubenrein machen), aber die Sammlung orientiert sich stark an den Interessen und Perspektiven der englischsprachigen westlichen Welt.

Viele Leute haben über Voreingenommenheit in KI-Systemen geschrieben. Ein KI-basiertes Gesichtserkennungsprogramm beispielsweise, das unverhältnismäßig stark auf Bilder hellhäutiger Menschen trainiert wird, funktioniert möglicherweise weniger gut auf Bildern von Menschen mit dunklerer Haut – mit möglicherweise katastrophalen Folgen. Books3 hilft uns, das Problem aus einem anderen Blickwinkel zu betrachten: Welche Kombination von Büchern wäre unvoreingenommen? Wie wäre eine gerechte Verteilung christlicher, muslimischer, buddhistischer und jüdischer Untertanen? Werden extremistische Ansichten durch gemäßigte ausgeglichen? Wie ist das richtige Verhältnis zwischen amerikanischer und chinesischer Geschichte und welche Perspektiven sollten jeweils vertreten sein? Wenn Wissen durch Algorithmen und nicht durch menschliches Urteilsvermögen organisiert und gefiltert wird, wird das Problem der Perspektive sowohl entscheidend als auch unlösbar.


Books3 ist ein riesiger Datensatz. Hier sind nur einige verschiedene Möglichkeiten, die darin enthaltenen Autoren, Bücher und Verlage zu berücksichtigen. Beachten Sie, dass die hier vorgestellten Beispiele nicht vollständig sind; Sie wurden ausgewählt, um einen schnellen Eindruck von den vielen verschiedenen Schreibarten zu vermitteln, die zum Trainieren generativer KI verwendet werden. Wie oben kann die Anzahl der Bücher mehrere Ausgaben umfassen.


Während KI-Chatbots beginnen, traditionelle Suchmaschinen zu ersetzen, nimmt die Macht der Technologiebranche, unseren Zugang zu Informationen einzuschränken und unsere Perspektive zu manipulieren, exponentiell zu. Wenn das Internet den Zugang zu Informationen demokratisiert hat, indem es die Notwendigkeit beseitigt hat, in eine Bibliothek zu gehen oder einen Experten zu konsultieren, ist der KI-Chatbot eine Rückkehr zum alten Gatekeeping-Modell, aber mit einem Gatekeeper, der undurchsichtig und nicht rechenschaftspflichtig ist – ein Gatekeeper, der darüber hinaus anfällig ist zu „Halluzinationen“ und kann Quellen zitieren oder auch nicht.

In seinem jüngsten Gerichtsantrag – einem Antrag auf Abweisung der von den Autoren Richard Kadrey, Sarah Silverman und Christopher Golden eingereichten Klage – stellte Meta fest, dass „Books3 einen erstaunlich kleinen Teil des gesamten Textes ausmacht, der für die Schulung von LLaMA verwendet wird.“ Das ist technisch gesehen richtig (ich schätze, dass Books3 etwa 3 Prozent des gesamten Schulungstextes von LLaMA ausmacht), geht aber einem Kernanliegen aus dem Weg: Wenn LLaMA Silvermans Buch zusammenfassen kann, dann verlässt es sich dabei wahrscheinlich stark auf den Text ihres Buchs. Im Allgemeinen ist es angesichts der Undurchdringlichkeit aktueller Algorithmen schwer zu wissen, wie viel eine bestimmte Quelle zum Output eines generativen KI-Systems beiträgt.

Unser einziger Hinweis darauf, welche Art von Informationen und Meinungen KI-Chatbots liefern werden, sind jedoch ihre Trainingsdaten. Ein Blick auf Books3 ist ein guter Anfang, aber es ist nur ein Teil des Trainingsdatenuniversums, das größtenteils hinter verschlossenen Türen bleibt.

source site

Leave a Reply