Sehen Sie sich eine KI an. Lernen Sie zu schreiben, indem Sie nichts als Jane Austen lesen

Der Kern eines Programms für künstliche Intelligenz wie ChatGPT ist ein sogenanntes großes Sprachmodell: ein Algorithmus, der die Form der geschriebenen Sprache nachahmt.

Während das Innenleben dieser Algorithmen notorisch schwer zu entschlüsseln ist, ist die Grundidee dahinter überraschend einfach. Sie werden mit Bergen von Internettexten trainiert, indem sie jeweils ein paar Sätze oder Absätze durchgehen, wiederholt das nächste Wort (oder Wortfragment) erraten und sich dann mit der Realität vergleichen.

Um Ihnen zu zeigen, wie dieser Prozess aussieht, haben wir sechs winzige Sprachmodelle von Grund auf neu trainiert. Wählen Sie zunächst aus, wovon die KI lernen soll Wählen Sie eines der folgenden Bilder aus. (Du kannst deine Meinung später immer noch ändern.)

Vor dem Training: Kauderwelsch

Zu Beginn erzeugt BabyGPT einen Text wie diesen:

Die größten Sprachmodelle werden mit über einem Terabyte Internettext trainiert, der Hunderte Milliarden Wörter enthält. Ihre Ausbildung kostet Millionen von Dollar und beinhaltet Berechnungen, die Wochen oder sogar Monate auf Hunderten von spezialisierten Computern dauern.

BabyGPT ist im Vergleich dazu ameisengroß. Wir haben es etwa eine Stunde lang auf einem Laptop mit nur wenigen Megabyte Text trainiert – klein genug, um es an eine E-Mail anzuhängen.

Im Gegensatz zu den größeren Modellen, die mit einem großen Wortschatz ins Training starten, kennt BabyGPT noch keine Wörter. Es rät Buchstaben für Buchstabe, was es für uns etwas einfacher macht, zu sehen, was es lernt.

Anfangs sind seine Vermutungen völlig zufällig und enthalten viele Sonderzeichen: ‘?kZhc,TK996’) wäre ein tolles Passwort, aber es ist weit entfernt von irgendetwas, das Jane Austen oder Shakespeare ähnelt. BabyGPT hat noch nicht gelernt, welche Buchstaben typischerweise im Englischen verwendet werden, oder dass Wörter überhaupt existieren.

So fangen Sprachmodelle normalerweise an: Sie raten zufällig und produzieren Kauderwelsch. Aber sie lernen aus ihren Fehlern und mit der Zeit werden ihre Vermutungen besser. Über viele, viele Trainingsrunden können Sprachmodelle schreiben lernen. Sie lernen statistische Muster, die Wörter zu Sätzen und Absätzen zusammensetzen.

Nach 250 Runden: Englische Buchstaben

Nach 250 Trainingsrunden — etwa 30 Sekunden Verarbeitung auf einem modernen Laptop — BabyGPT hat sein ABC gelernt und fängt an zu plappern:

Insbesondere hat unser Modell gelernt, welche Buchstaben im Text am häufigsten verwendet werden. Sie werden häufig den Buchstaben „e“ sehen, da dies der häufigste Buchstabe im Englischen ist.

Wenn Sie genau hinschauen, werden Sie feststellen, dass es auch einige kleine Wörter gelernt hat: I, to, the, you und so weiter.

Es hat ein winziges Vokabular, aber das hindert es nicht daran, Wörter wie alingedimpe, ratlabus und mandired zu erfinden.

Offensichtlich sind diese Vermutungen nicht gut. Aber – und das ist ein Schlüssel dafür, wie ein Sprachmodell lernt – BabyGPT zeichnet genau auf, wie schlecht seine Vermutungen sind.

In jeder Trainingsrunde geht es den Originaltext Wort für Wort durch und vergleicht seine Vermutungen für den nächsten Buchstaben mit dem, was tatsächlich als nächstes kommt. Anschließend wird eine Punktzahl berechnet, die als „Verlust“, der den Unterschied zwischen seinen Vorhersagen und dem tatsächlichen Text misst. Ein Verlust von Null würde bedeuten, dass seine Vermutungen immer richtig mit dem nächsten Buchstaben übereinstimmten. Je kleiner der Verlust, desto näher liegen die Vermutungen am Text.

Nach 500 Runden: Kleine Worte

In jeder Trainingsrunde versucht BabyGPT, seine Schätzungen zu verbessern, indem es diesen Verlust reduziert. Nach 500 Runden – oder etwa eine Minute auf einem Laptop – es kann ein paar kleine Wörter buchstabieren:

Es fängt auch an, einige grundlegende Grammatik zu lernen, z. B. wo Punkte und Kommas zu setzen sind. Aber es macht viele Fehler. Niemand wird diese Ausgabe mit etwas verwechseln, das von einem Menschen geschrieben wurde.

Nach 5.000 Runden: Größere Worte

Zehn Minuten, Der Wortschatz von BabyGPT ist gewachsen:

Die Sätze ergeben keinen Sinn, aber sie nähern sich stilistisch dem Text. BabyGPT macht jetzt weniger Rechtschreibfehler. Es erfindet immer noch einige längere Wörter, aber seltener als früher. Es beginnt auch, einige Namen zu lernen, die häufig im Text vorkommen.

Auch die Grammatik verbessert sich. Beispielsweise hat es gelernt, dass auf einen Punkt oft ein Leerzeichen und ein Großbuchstabe folgen. Es öffnet sogar gelegentlich ein Angebot (obwohl es oft vergisst, es zu schließen).

Hinter den Kulissen ist BabyGPT ein neuronales Netzwerk: eine äußerst komplizierte Art mathematischer Funktion mit Millionen von Zahlen, die eine Eingabe (in diesem Fall eine Buchstabenfolge) in eine Ausgabe (seine Vorhersage für den nächsten Buchstaben) umwandelt.

In jeder Trainingsrunde passt ein Algorithmus diese Zahlen an, um zu versuchen, seine Schätzungen zu verbessern, indem er eine mathematische Technik verwendet, die als Backpropagation bekannt ist. Der Prozess der Abstimmung dieser internen Zahlen zur Verbesserung der Vorhersagen ist das, was es für ein neuronales Netzwerk bedeutet, zu „lernen“.

Was dieses neuronale Netz tatsächlich generiert, sind keine Buchstaben, sondern Wahrscheinlichkeiten. (Diese Wahrscheinlichkeiten sind der Grund, warum Sie jedes Mal eine andere Antwort erhalten, wenn Sie eine neue Antwort generieren.)

Zum Beispiel, wenn die Buchstaben gegeben werden standes wird voraussagen, dass der nächste Buchstabe ist N, R oder vielleicht Dmit Wahrscheinlichkeiten, die davon abhängen, wie oft es jedem Wort in seinem Training begegnet ist.

Aber wenn wir es geben untenes ist viel wahrscheinlicher vorherzusagen R. Seine Vorhersagen hängen vom Kontext ab.

Nach 30.000 Runden: Vollständige Sätze

Eine Stunde in seinem Training, BabyGPT lernt in ganzen Sätzen zu sprechen. Das ist nicht so schlimm, wenn man bedenkt, dass es vor einer Stunde noch nicht einmal wusste, dass Wörter existieren!

Die Worte ergeben immer noch keinen Sinn, aber sie definitiv sehen eher englisch.

Die Sätze, die dieses neuronale Netz generiert, kommen selten im Originaltext vor. Normalerweise werden Sätze nicht wörtlich kopiert und eingefügt; Stattdessen fügt BabyGPT sie Buchstabe für Buchstabe zusammen, basierend auf statistischen Mustern, die es aus den Daten gelernt hat. (Typische Sprachmodelle fügen Sätze aus jeweils ein paar Buchstaben zusammen, aber die Idee ist die gleiche.)

Je größer Sprachmodelle werden, desto komplexer werden die Muster, die sie lernen. Sie können die Form eines Sonetts oder eines Limericks lernen oder in verschiedenen Programmiersprachen programmieren.

BabyGPT hat noch einen langen Weg vor sich, bevor seine Sätze kohärent oder nützlich werden. Es kann keine Frage beantworten oder Ihren Code debuggen. Es macht meistens nur Spaß zu sehen, wie sich seine Vermutungen verbessern.

Liniendiagramm, das den „Verlust“ des ausgewählten Modells im Laufe der Zeit zeigt. Jedes Modell beginnt mit einem hohen Verlust, der Kauderwelschzeichen erzeugt. In den nächsten paar hundert Trainingsrunden nimmt der Verlust steil ab und das Modell beginnt, englische Buchstaben und ein paar kleine Wörter zu produzieren. Der Verlust fällt dann allmählich ab und das Modell produziert nach 5.000 Trainingsrunden größere Wörter. An diesem Punkt gibt es abnehmende Renditen und die Kurve ist ziemlich flach. Nach 30.000 Runden macht das Modell ganze Sätze.

Die Grenzen des Lernens von BabyGPT

Mit begrenztem Text, mit dem gearbeitet werden kann, profitiert BabyGPT nicht viel von weiterer Schulung. Größere Sprachmodelle verwenden mehr Daten und Rechenleistung, um Sprache überzeugender nachzuahmen.

Hinweis: Die Verlustschätzungen sind leicht geglättet.

Aber es ist auch lehrreich. In nur einer Stunde Training auf einem Laptop kann ein Sprachmodell von der Generierung zufälliger Zeichen zu einer sehr groben Sprachannäherung übergehen.

Sprachmodelle sind eine Art universelle Mimik: Sie ahmen alles nach, worauf sie trainiert wurden. Mit genügend Daten und Trainingsrunden kann diese Nachahmung ziemlich unheimlich werden, wie uns ChatGPT und seine Konkurrenten gezeigt haben.

Was ist überhaupt ein GPT?

Die in diesem Artikel trainierten Modelle verwenden einen von Andrej Karpathy entwickelten Algorithmus namens nanoGPT. Herr Karpathy ist ein prominenter KI-Forscher, der kürzlich zu OpenAI, dem Unternehmen hinter ChatGPT, kam.

Wie ChatGPT ist nanoGPT ein GPT-Modell, ein KI-Begriff, der für steht generativer vortrainierter Transformator:

Generativ weil es Worte erzeugt.

Vortrainiert weil es auf einem Haufen Text trainiert ist. Dieser Schritt wird als Vortraining bezeichnet, da viele Sprachmodelle (wie das hinter ChatGPT) wichtige zusätzliche Trainingsphasen durchlaufen, die als Feinabstimmung bekannt sind, um sie weniger toxisch und einfacher zu interagieren.

Transformer sind ein relativ neuer Durchbruch in der Art und Weise, wie neuronale Netze verdrahtet sind. Sie wurden 2017 in einem Artikel von Google-Forschern vorgestellt und werden in vielen der neuesten KI-Fortschritte verwendet, von der Textgenerierung bis zur Bilderstellung.

Transformers verbesserten die vorherige Generation neuronaler Netze – bekannt als rekurrente neuronale Netze – indem sie Schritte einschlossen, die die Wörter eines Satzes parallel und nicht einzeln verarbeiten. Dadurch wurden sie viel schneller.

Mehr ist anders

Abgesehen von den zusätzlichen Feinabstimmungsstufen ist der Hauptunterschied zwischen nanoGPT und dem chatGPT zugrunde liegenden Sprachmodell die Größe.

Beispielsweise wurde GPT-3 mit bis zu einer Million Mal so vielen Wörtern trainiert wie die Modelle in diesem Artikel. Die Skalierung auf diese Größe ist ein riesiges technisches Unterfangen, aber die zugrunde liegenden Prinzipien bleiben gleich.

Mit zunehmender Größe von Sprachmodellen entwickeln sie bekanntermaßen überraschende neue Fähigkeiten, wie z. B. die Fähigkeit, Fragen zu beantworten, Texte zusammenzufassen, Witze zu erklären, ein Muster fortzusetzen und Fehler im Computercode zu korrigieren.

Manche Forscher bezeichnen diese Fähigkeiten als „emergente Fähigkeiten“, weil sie ab einer bestimmten Größe unerwartet auftreten und nicht von Hand einprogrammiert werden. Der KI-Forscher Sam Bowman hat das Training eines großen Sprachmodells mit dem „Kauf einer Mystery Box“ verglichen, da es schwierig ist, vorherzusagen, welche Fähigkeiten es während des Trainings erwerben wird und wann diese Fähigkeiten zum Vorschein kommen.

Auch unerwünschte Verhaltensweisen können auftreten. Große Sprachmodelle können sehr unvorhersehbar werden, wie die frühen Interaktionen von Microsoft Bing AI mit meinem Kollegen Kevin Roose zeigen.

Sie neigen auch dazu, Fakten zu erfinden und falsch zu argumentieren. Die Forscher verstehen noch nicht, wie diese Modelle Sprache erzeugen, und sie haben Mühe, ihr Verhalten zu steuern.

Fast vier Monate nach der Veröffentlichung von ChatGPT von OpenAI startete Google laut Bloomberg-Berichten einen KI-Chatbot namens Bard wegen Sicherheitseinwänden einiger seiner Mitarbeiter.

„Diese Modelle werden in einem Wettrüsten zwischen Technologieunternehmen ohne jegliche Transparenz entwickelt“, sagte Peter Bloem, ein KI-Experte, der Sprachmodelle untersucht.

OpenAI verrät nicht alle Details zu den Daten, auf denen sein riesiges GPT-4-Modell trainiert wird, unter Berufung auf Bedenken hinsichtlich Wettbewerb und Sicherheit. Wenn man nicht weiß, was in den Daten steckt, ist es schwierig zu sagen, ob diese Technologien sicher sind und welche Arten von Vorurteilen in sie eingebettet sind.

Aber während Herr Bloem Bedenken wegen der fehlenden KI-Regulierung hat, freut er sich auch darüber, dass Computer endlich anfangen, „zu verstehen, was wir von ihnen wollen“ – etwas, das, wie er sagt, Forscher seit über nicht annähernd erreicht hatten 70 Jahre Versuch.


source site

Leave a Reply