KI, die auf die Erfahrungen eines Babys trainiert wird, liefert Hinweise darauf, wie wir Sprache lernen

Eineinhalb Jahre lang trug ein Baby namens Sam in wöchentlichen Sitzungen eine Headcam, die seine Welt einfing: ein Löffel, der auf seinen Mund zuraste, eine Pflegerin, die „Whee!“ kreischte. als er eine orangefarbene Rutsche hinuntersauste oder eine Katze sich putzt. Jetzt haben Wissenschaftler diese Bilder und Geräusche einem relativ einfachen KI-Programm zugeführt, um eine der tiefgreifendsten Fragen der Kognitionswissenschaft zu untersuchen: Wie lernen Kinder Sprache?

In einem am Donnerstag in der Fachzeitschrift „Science“ veröffentlichten Artikel berichten Forscher der New York University, dass KI, wenn man nur einen winzigen Bruchteil der fragmentierten Erfahrungen eines Kindes berücksichtigt, beginnen kann, die Ordnung in den Pixeln zu erkennen und zu erkennen, dass es so etwas wie ein Kinderbett gibt. Treppen oder ein Puzzle und ordne diese Wörter den Bildern richtig zu.

Das von den Forschern verwendete Werkzeug ist keine KI, die wie ein Kind lernt. Die Forschung zeigt jedoch, dass KI einige grundlegende Elemente der Sprache aus dem sensorischen Input der Erfahrung eines einzelnen Kindes erfassen kann, auch ohne Vorkenntnisse in Grammatik oder anderen sozialen Fähigkeiten. Es ist ein Teil einer viel größeren Aufgabe, schließlich eine KI zu entwickeln, die den Geist eines Babys nachahmt, ein heiliger Gral der Kognitionswissenschaft, der Forschern helfen könnte, unsere eigene Entwicklung zu verstehen und zu einer KI zu führen, die Menschen neue Fähigkeiten auf intuitivere Weise vermitteln könnte.

Chatbots, auch als „große Sprachmodelle“ bekannt, haben gezeigt, dass KI, die auf riesigen Textmengen trainiert wird, einen redseligen Gesprächspartner mit einer umwerfenden Beherrschung der Sprache hervorbringen kann. Viele Kognitionswissenschaftler behaupten jedoch, dass diese verbale Leistung hinter dem tatsächlichen menschlichen Denken zurückbleibt.

Babys sind das Gegenteil eines Chatbots. Sie lernen Wörter nicht durch schnelles Verdauen aller Texte auf der Welt, sondern indem sie in der Welt selbst sind, durch sensorische Eingaben und durch Spielen.

„Nach unseren Berechnungen würde ein Kind 100.000 Jahre brauchen, um gesprochenen Wörtern zuzuhören, um die Wortanzahl zu erreichen“, die in den Trainingssätzen für Chatbots enthalten ist, sagte Brenden Lake, ein kognitiver Wissenschaftler an der NYU, der die Studie leitete. „Ich war auch skeptisch, dass diese [chatbot] Modelle würden viel Licht auf das menschliche Lernen und die menschliche Entwicklung werfen.“

Babys sind das Gegenteil eines KI-Chatbots. Sie lernen Wörter nicht durch das Verdauen aller Texte auf der Welt, sondern durch sensorische Eingaben und Spielen. (Video: Jonathan King)

Linguisten, Philosophen, Kognitionswissenschaftler und – zunehmend – KI-Entwickler haben es getan Alle rätseln darüber, wie Menschen Sprache lernen.

Seit Jahren versuchen Wissenschaftler durch sorgfältig kontrollierte Experimente zu verstehen, wie der Geist von Kindern Gestalt annimmt. Bei vielen handelt es sich um Spielzeuge oder Puppen, mit denen Forscher untersuchen können, wann verschiedene kognitive Fähigkeiten zum Einsatz kommen. Sie haben gezeigt, dass 16 Monate alte Babys statistische Überlegungen anwenden können, um festzustellen, ob ein Krachmacher kaputt ist, und dass Babys bereits im Alter von 5 Jahren feststellen können, ob ein Krachmacher kaputt ist Schon mehrere Monate wissen, dass ein Objekt auch dann noch existiert, wenn sie es nicht sehen können, ein wichtiger Meilenstein in der Entwicklung, der als Objektpermanenz bezeichnet wird.

Darüber hinaus wurden einige einzelne Babys im Laufe der Zeit genau beobachtet. Deb Roy, ein Wissenschaftler am Massachusetts Institute of Technology, installierte 2005 in allen Räumen seines Hauses Deckenkameras und zeichnete die sprachliche Entwicklung seines Sohnes auf. Dabei lieferte er einen riesigen Datenschatz, der den Erwerb und die Entwicklung von Wörtern dokumentierte. Diese Arbeit legte nahe, dass nicht die Häufigkeit, mit der ein Wort wiederholt wurde, ausschlaggebend dafür war, ob Roys Sohn es früh lernte, sondern ob es an einer ungewöhnlichen Stelle im Haus, zu einem überraschenden Zeitpunkt oder in einem besonderen sprachlichen Kontext ausgesprochen wurde.

Der innovative Einsatz von Headcams hat Forschern einen noch intimeren Einblick in die frühe Kindheit ermöglicht.

Seit 2013 haben mehrere Familien zur SAYCam-Datenbank beigetragen, einer Sammlung audiovisueller Aufzeichnungen einzelner Babys und Kleinkinder über einen entscheidenden Zeitraum der kognitiven Entwicklung, zwischen 6 und 32 Monaten. Die Familien der Babys, die nur mit dem Vornamen identifiziert werden, setzen ihren Kindern etwa zwei Stunden pro Woche an Stirnbändern montierte Kameras an.

Wissenschaftler können Zugriff auf die Daten beantragen, die im Laufe der Zeit einen einzigartigen Einblick in die Welt jedes Kindes bieten und als Ressource für Forscher in verschiedenen Bereichen dienen sollen.

Sam, dessen Identität vertraulich ist, ist jetzt 11 Jahre alt. Doch die Aufnahmen aus seinem frühen Leben in Australien lieferten Lake und seinen Kollegen 600.000 Videobilder gepaart mit 37.500 transkribierten Wörtern an Trainingsdaten für ihr KI-Projekt.

Sie trainierten ihr relativ einfaches neuronales Netzwerk anhand von Daten, die gesammelt wurden, als Sam zwischen 6 Monaten und 2 Jahren alt war. Sie fanden heraus, dass die KI gelernt hat, grundlegende Substantive und Bilder mit ähnlicher Genauigkeit zuzuordnen wie eine KI, die auf 400 Millionen Bildern mit Bildunterschriften aus dem Internet trainiert wurde.

Die Ergebnisse führen zu einer langjährigen Debatte in der Wissenschaft über die grundlegenden kognitiven Fähigkeiten, die Menschen zum Erlernen einer Sprache in ihr Gehirn einbauen müssen, lösen diese jedoch nicht.

Es gibt verschiedene Theorien darüber, wie Menschen Sprache lernen. Der renommierte Linguist Noam Chomsky schlug die Idee einer eingebauten, angeborenen Sprachfähigkeit vor. Andere Experten glauben, dass wir soziale oder induktive Denkfähigkeiten benötigen, damit Sprache entstehen kann.

Die neue Studie legt nahe, dass ein gewisses Maß an Sprachenlernen auch ohne spezielle kognitive Mechanismen stattfinden kann. Relativ einfaches assoziatives Lernen – Ball sehen, „Ball“ hören – kann einer KI beibringen, Übereinstimmungen zu bilden, wenn es um einfache Substantive und Bilder geht.

„In das Netzwerk ist nichts eingebaut, was dem Modell Hinweise auf die Sprache gibt oder wie Sprache strukturiert sein sollte“, sagte Wai Keen Vong, Co-Autor der Studie und wissenschaftlicher Mitarbeiter an der NYU.

Den Forschern liegen keine vergleichbaren Daten darüber vor, wie ein Zweijähriger die Aufgaben der KI bewältigen würde, sie sagten jedoch, dass die Fähigkeiten der KI hinter denen eines kleinen Kindes zurückbleiben. Sie konnten beispielsweise verfolgen, wohin die KI fokussierte, wenn sie mit verschiedenen Wörtern dazu aufgefordert wurden, und stellten fest, dass sie zwar bei einigen Wörtern wie „Auto“ oder „Ball“ genau richtig war, bei der Aufforderung mit „Auto“ oder „Ball“ jedoch im falschen Bereich suchte. Katze.”

„Ich möchte herausfinden, welche Mindestzutaten erforderlich sind, um ein Modell zu bauen, das mehr lernen kann wie ein Kind – das ist ein Schritt“, sagte Lake.

Die Grundlagen der Sprache

Wissenschaftler der New York University berichten, dass die KI 61 Stunden in Sams Leben im Alter zwischen 6 Monaten und 2 Jahren trainiert hat, um zu lernen, grundlegende Substantive und Bilder zuzuordnen. (Video: Sams Vater)

Die KI hat ihren Wortschatz an Objekten dadurch gewonnen, dass sie 1 Prozent von Sams wachen Stunden ausgesetzt war – 61 Stunden Filmmaterial, das über einen Zeitraum von anderthalb Jahren gesammelt wurde. Was externe Wissenschaftler an der Studie faszinierte, war sowohl die Frage, wie weit die KI auf dieser Grundlage gekommen ist, als auch die Frage, wie weit sie noch gehen muss, um das menschliche Lernen zu rekapitulieren.

„Es ist wirklich wichtig und neu, diese Methoden auf diese Art von Datenquelle anzuwenden, bei der es sich um Daten aus den visuellen und akustischen Erfahrungen eines einzelnen Kindes handelt“, sagte Joshua Tenenbaum, ein Computer-Kognitionswissenschaftler am MIT, der nicht daran beteiligt war arbeiten.

„Was ich hinzufügen möchte, ist, dass es immer noch einige Dinge gibt, die sich aus der Arbeit nicht genau schließen lassen – was uns das darüber sagt, wie Kinder tatsächlich Wörter lernen, ist weniger klar.“

Michael Tomasello, ein Entwicklungs- und Vergleichspsychologe an der Duke University, sagte, dass das KI-Modell widerspiegeln könnte, wie ein Hund oder ein Papagei Wörter lernen kann. Experimente zeigen, dass manche Hunde mehr als 100 Wörter für gewöhnliche Gegenstände oder Stofftiere lernen können.

Er wies jedoch darauf hin, dass es weiterhin unklar sei, wie diese KI sensorische Eingaben aufnehmen und Verben, Präpositionen oder soziale Ausdrücke erfassen könne.

„Es könnte lernen, dass ein wiederkehrendes visuelles Muster ‚Puppe‘ ist. Aber wie erfährt es, dass genau dasselbe Objekt auch ein „Spielzeug“ ist? Wie lernt es „dies“ oder „das“ oder „es“ oder „Ding“?“ Tomasello schrieb in einer E-Mail.

Er bemerkte, dass das auf den Erfahrungen des Kindes trainierte KI-Modell in der Lage sei, sichtbare Dinge zu identifizieren, und das sei nur ein kleiner Teil der Sprache, die Kinder hören und lernen. Er schlug ein alternatives Modell vor, bei dem statt einfach Durch die Verknüpfung von Bildern mit Tönen müsste eine KI Rückschlüsse auf die Absicht der Kommunikation ziehen, Sprache zu lernen.

Lake beginnt, KI-Modelle anhand von Videos statt Standbildern zu trainieren um zu sehen, ob sie ihren Wortschatz erfolgreich auf Verben und abstrakte Wörter erweitern können. Bald wird es einen zusätzlichen Datenstrom geben, mit dem man arbeiten kann, denn Lake sammelt Daten von seiner kleinen Tochter.

Er räumte jedoch ein, dass die Art und Weise, wie die KI lernt, selbst bei einfachen Wörtern vom Lernen der Kinder abweicht. Die KI war zum Beispiel wirklich gut darin, Sand zu erkennen, hatte aber Probleme mit den Händen, was bedeutet, dass ihre Fortschritte wahrscheinlich nicht das Verständnis der meisten Kinder für ihre Umgebung widerspiegeln.

„‚Sand‘ war zu einfach, ‚Hand‘ war zu hart“, sagte Lake. „Und das Model weiß nicht, dass Milch und Birnen gut schmecken.“

source site

Leave a Reply