ChatGPT ist überall. Hier ist, woher es kam

1980er–90er: Wiederkehrende neuronale Netze

ChatGPT ist eine Version von GPT-3, einem großen Sprachmodell, das ebenfalls von OpenAI entwickelt wurde. Sprachmodelle sind eine Art neuronales Netzwerk, das mit sehr viel Text trainiert wurde. (Neuronale Netze sind Software, die von der Art und Weise inspiriert ist, wie Neuronen in Tiergehirnen sich gegenseitig Signale senden.) Da Text aus Folgen von Buchstaben und Wörtern unterschiedlicher Länge besteht, benötigen Sprachmodelle eine Art neuronales Netz, das diese Art von Daten verstehen kann . Wiederkehrende neuronale Netze, die in den 1980er Jahren erfunden wurden, können Wortfolgen verarbeiten, aber sie sind langsam zu trainieren und können frühere Wörter in einer Folge vergessen.

1997 haben die Informatiker Sepp Hochreiter und Jürgen Schmidhuber dies durch eine Erfindung behoben LTSM (Long Short-Term Memory) Netze, rekurrente neuronale Netze mit speziellen Komponenten, die es ermöglichen, vergangene Daten in einer Eingabesequenz länger aufzubewahren. LTSMs konnten mehrere hundert Wörter lange Textfolgen verarbeiten, aber ihre Sprachkenntnisse waren begrenzt.

2017: Transformatoren

Der Durchbruch hinter der heutigen Generation großer Sprachmodelle kam, als ein Team von Google-Forschern Transformatoren erfand, eine Art neuronales Netzwerk, das verfolgen kann, wo jedes Wort oder jede Phrase in einer Sequenz vorkommt. Die Bedeutung von Wörtern hängt oft von der Bedeutung anderer Wörter ab, die davor oder danach kommen. Durch die Verfolgung dieser Kontextinformationen können Transformer längere Textfolgen verarbeiten und die Bedeutung von Wörtern genauer erfassen. So bedeutet „Hot Dog“ in den Sätzen „Hot Dogs sollten viel Wasser bekommen“ und „Hot Dogs sollten mit Senf gegessen werden“ sehr unterschiedliche Dinge.

2018–2019: GPT und GPT-2

Die ersten beiden großen Sprachmodelle von OpenAI kamen nur wenige Monate auseinander. Das Unternehmen möchte eine vielseitige, universelle KI entwickeln und glaubt, dass große Sprachmodelle ein wichtiger Schritt in Richtung dieses Ziels sind. GPT (kurz für Generative Pre-trained Transformer) hat eine Fahne gehisst und damals die hochmodernen Benchmarks für die Verarbeitung natürlicher Sprache übertroffen.

GPT kombinierte Transformer mit unüberwachtem Lernen, eine Möglichkeit, Modelle für maschinelles Lernen mit Daten (in diesem Fall viel, viel Text) zu trainieren, die zuvor nicht kommentiert wurden. Dadurch kann die Software selbst Muster in den Daten erkennen, ohne dass ihr mitgeteilt werden muss, was sie betrachtet. Viele frühere Erfolge beim maschinellen Lernen beruhten auf überwachtem Lernen und annotierten Daten, aber das manuelle Kennzeichnen von Daten ist langsam und begrenzt daher die Größe der für das Training verfügbaren Datensätze.

Aber es war GPT-2, das für die größere Aufregung sorgte. OpenAI behauptete, so besorgt zu sein, dass Menschen GPT-2 verwenden würden, „um irreführende, voreingenommene oder missbräuchliche Sprache zu erzeugen“, dass es nicht das vollständige Modell veröffentlichen würde. Wie sich die Zeiten ändern.

2020: GPT-3

GPT-2 war beeindruckend, aber der Nachfolger von OpenAI, GPT-3, ließ die Kinnlade herunterfallen. Seine Fähigkeit, menschenähnlichen Text zu generieren, war ein großer Sprung nach vorne. GPT-3 kann Fragen beantworten, Dokumente zusammenfassen, Geschichten in verschiedenen Stilen erstellen, zwischen Englisch, Französisch, Spanisch und Japanisch übersetzen und vieles mehr. Seine Mimik ist unheimlich.

Eine der bemerkenswertesten Erkenntnisse ist, dass die Vorteile von GPT-3 eher auf die Überdimensionierung bestehender Techniken als auf die Erfindung neuer Techniken zurückzuführen sind. GPT-3 hat 175 Milliarden Parameter (die Werte in einem Netzwerk, die während des Trainings angepasst werden), verglichen mit den 1,5 Milliarden von GPT-2. Es wurde auch mit viel mehr Daten trainiert.

source site

Leave a Reply