Facebook möchte, dass Maschinen die Welt durch unsere Augen sehen

In den letzten zwei Jahren hat Facebook AI Research (FAIR) mit 13 Universitäten auf der ganzen Welt zusammengearbeitet, um den bisher größten Datensatz von First-Person-Videos zusammenzustellen – insbesondere um Deep-Learning-Bilderkennungsmodelle zu trainieren. Mit dem Datensatz trainierte KIs können Roboter, die mit Menschen interagieren, besser steuern oder Bilder von Datenbrillen interpretieren. „Maschinen können uns nur dann im Alltag helfen, wenn sie die Welt wirklich durch unsere Augen verstehen“, sagt Kristen Grauman von FAIR, die das Projekt leitet.

Solche Technologien könnten Menschen unterstützen, die Hilfe im Haushalt benötigen, oder Menschen bei Aufgaben anleiten, die sie gerade erledigen lernen. „Das Video in diesem Datensatz ist viel näher an der Art und Weise, wie Menschen die Welt beobachten“, sagt Michael Ryoo, ein Computer Vision-Forscher bei Google Brain und der Stony Brook University in New York, der nicht an Ego4D beteiligt ist.

Aber der potenzielle Missbrauch ist klar und besorgniserregend. Die Forschung wird von Facebook finanziert, einem Social-Media-Giganten, dem kürzlich im US-Senat vorgeworfen wurde, Gewinne über das Wohlergehen der Menschen zu stellen – wie die eigenen Untersuchungen von MIT Technology Review bestätigen.

Das Geschäftsmodell von Facebook und anderen Big-Tech-Unternehmen besteht darin, so viele Daten wie möglich aus dem Online-Verhalten der Menschen zu gewinnen und an Werbetreibende zu verkaufen. Die im Projekt skizzierte KI könnte diese Reichweite auf das alltägliche Offline-Verhalten der Menschen ausdehnen und aufdecken, welche Gegenstände sich in Ihrem Zuhause befinden, welche Aktivitäten Sie genossen haben, mit wem Sie Zeit verbracht haben und sogar wo Ihr Blick verweilt – ein beispielloses Maß an persönlichen Informationen.

„Es gibt noch Arbeit zum Datenschutz, wenn man dies aus der Welt der explorativen Forschung herausnimmt und in ein Produkt verwandelt“, sagt Grauman. „Diese Arbeit könnte sogar von diesem Projekt inspiriert werden.“

FACEBOOK

Der größte bisherige Datensatz von Ego-Videos besteht aus 100 Stunden Filmmaterial von Personen in der Küche. Der Ego4D-Datensatz besteht aus 3.025 Stunden Videomaterial, das von 855 Personen an 73 verschiedenen Orten in neun Ländern (USA, Großbritannien, Indien, Japan, Italien, Singapur, Saudi-Arabien, Kolumbien und Ruanda) aufgenommen wurde.

Die Teilnehmer hatten unterschiedliche Altersgruppen und Hintergründe; einige wurden für ihre visuell interessanten Berufe rekrutiert, wie Bäcker, Mechaniker, Zimmerleute und Landschaftsgärtner.

Frühere Datensätze bestanden typischerweise aus semi-scripted Videoclips von nur wenigen Sekunden Länge. Für Ego4D trugen die Teilnehmer jeweils bis zu 10 Stunden lang am Kopf befestigte Kameras und nahmen Ego-Videos von alltäglichen Aktivitäten ohne Drehbuch auf, darunter das Gehen entlang einer Straße, Lesen, Wäsche waschen, Einkaufen, Spielen mit Haustieren, Brettspiele und Interaktion mit anderen Menschen. Einige der Aufnahmen enthalten auch Audio, Daten darüber, wohin der Blick der Teilnehmer gerichtet war, und mehrere Perspektiven auf dieselbe Szene. Es ist der erste Datensatz dieser Art, sagt Ryoo.

source site

Leave a Reply