Diese 183.000 Bücher befeuern den größten Kampf im Verlagswesen und in der Technologie

Nutzen Sie unsere neue Suchfunktion, um zu sehen, welche Autoren zum Trainieren der Maschinen eingesetzt wurden.

Illustration von Joanne Imperio / The Atlantic. Quelle: Getty.

Anmerkung des Herausgebers: Diese durchsuchbare Datenbank ist Teil von Der Atlantik‘s Serie über Books3. Sie können über die Ursprünge der Datenbank lesen Hierund eine Analyse dessen, was hier drin ist.

Diesen Sommer habe ich einen Datensatz von mehr als 191.000 Büchern erworben, die von Meta, Bloomberg und anderen ohne Erlaubnis zum Trainieren generativer KI-Systeme verwendet wurden. Ich habe reingeschrieben Der Atlantik darüber, wie der als „Books3“ bekannte Datensatz auf einer Sammlung raubkopierter E-Books basierte, von denen die meisten in den letzten 20 Jahren veröffentlicht wurden. Seitdem habe ich eine gründliche Analyse dessen durchgeführt, was tatsächlich in dem Datensatz enthalten ist, der nun im Mittelpunkt mehrerer Klagen steht, die von Autoren wie Sarah Silverman, Michael Chabon und Paul Tremblay gegen Meta eingereicht wurden, die behaupten, dass seine Verwendung in Das Training generativer KI stellt eine Urheberrechtsverletzung dar.

Seitdem mein Artikel erschienen ist, habe ich von mehreren Autoren gehört, die wissen wollten, ob ihre Arbeit in Books3 enthalten ist. In fast allen Fällen war die Antwort ja. Diese Autoren verbrachten Jahre damit, nachzudenken, zu recherchieren, sich etwas vorzustellen und zu schreiben, und hatten keine Ahnung, dass ihre Bücher dazu verwendet wurden, Maschinen zu trainieren, die sie eines Tages ersetzen könnten. In der Zwischenzeit werden die Menschen, die diese Maschinen bauen und trainieren, enorm davon profitieren.

Ein Sprecher von Meta, der um einen Kommentar gebeten wurde, beantwortete Fragen zur Verwendung von Raubkopien zum Trainieren von LLaMA, dem generativen KI-Produkt des Unternehmens, nicht direkt. Stattdessen verwies sie mich auf eine Gerichtsakte von letzter Woche im Zusammenhang mit der Silverman-Klage, in der Anwälte von Meta argumentieren, dass die Klage teilweise abgewiesen werden sollte, weil weder das LLaMA-Modell noch seine Ergebnisse den Büchern der Autoren „im Wesentlichen ähnlich“ seien .

Es kann über den Rahmen des Urheberrechts hinausgehen, sich mit den Schäden zu befassen, die den Autoren durch generative KI entstehen, und der Punkt bleibt, dass KI-Trainingspraktiken geheim und grundsätzlich nicht einvernehmlich sind. Nur sehr wenige Menschen verstehen genau, wie diese Programme entwickelt werden, auch wenn solche Initiativen drohen, die Welt, wie wir sie kennen, auf den Kopf zu stellen. Bücher werden in Books3 als große, unbeschriftete Textblöcke gespeichert. Um ihre Autoren und Titel zu identifizieren, habe ich die ISBNs aus diesen Textblöcken extrahiert und sie in einer Buchdatenbank nachgeschlagen. Von den 191.000 Titeln, die ich identifiziert habe, verfügen 183.000 über zugehörige Autoreninformationen. Mit der Suchfunktion unten können Sie nach Autoren in dieser Untergruppe suchen und sehen, welche ihrer Titel enthalten sind.

Bevor Sie beginnen, beachten Sie bitte einige Vorbehalte: Einige Bücher erscheinen mehrfach und weisen unterschiedliche Ausgaben, Übersetzungen, Kürzungen oder Anmerkungen auf. Aufgrund von Unstimmigkeiten in der Schreibweise der Autorennamen werden bei der Suche möglicherweise keine Bücher zurückgegeben, die sich tatsächlich in Books3 befinden. Es kann auch ein Durcheinander seltsamer Formatierungen liefern: Eine Abfrage nach Agatha Christie gibt auch Bücher mit dem Etikett zurück Agatha Christie Und Christie Agatha, Zum Beispiel. Und aufgrund möglicher Fehler im Prozess der Buchidentifizierung, bei dem eine ISBN im Buchtext erkannt und eine Buchdatenbank verwendet wird, um den Autor und Titel zu ermitteln, ist die Wahrscheinlichkeit falsch positiver Ergebnisse sehr gering.

source site

Leave a Reply