Dieser Roboterhund hat sich gerade selbst das Laufen beigebracht

Der Algorithmus des Teams namens Dreamer verwendet vergangene Erfahrungen, um ein Modell der umgebenden Welt aufzubauen. Dreamer ermöglicht es dem Roboter auch, Trial-and-Error-Berechnungen in einem Computerprogramm im Gegensatz zur realen Welt durchzuführen, indem potenzielle zukünftige Ergebnisse seiner potenziellen Aktionen vorhergesagt werden. Dadurch kann es schneller lernen, als es durch reines Handeln möglich wäre. Sobald der Roboter das Laufen gelernt hatte, lernte er immer wieder, sich an unerwartete Situationen anzupassen, wie zum Beispiel, sich dagegen zu wehren, von einem Stock umgeworfen zu werden.

„Das Lehren von Robotern durch Versuch und Irrtum ist ein schwieriges Problem, das durch die langen Schulungszeiten, die ein solches Lehren erfordert, noch erschwert wird“, sagt Lerrel Pinto, Assistenzprofessor für Informatik an der New York University, der sich auf Robotik und maschinelles Lernen spezialisiert hat. Dreamer zeigt, dass Deep Reinforcement Learning und Weltmodelle in der Lage sind, Robotern in sehr kurzer Zeit neue Fähigkeiten beizubringen, sagt er.

Jonathan Hurst, Professor für Robotik an der Oregon State University, sagt, dass die Ergebnisse, die noch nicht von Experten begutachtet wurden, deutlich machen, dass „bestärkendes Lernen ein Eckpfeiler in der Zukunft der Robotersteuerung sein wird“.

Das Entfernen des Simulators aus dem Robotertraining hat viele Vorteile. Der Algorithmus könnte nützlich sein, um Robotern beizubringen, wie sie Fähigkeiten in der realen Welt erlernen und sich an Situationen wie Hardwareausfälle anpassen können, sagt Hafner – zum Beispiel könnte ein Roboter lernen, mit einem defekten Motor in einem Bein zu laufen.

Der Ansatz könnte auch ein enormes Potenzial für kompliziertere Dinge wie autonomes Fahren haben, die komplexe und teure Simulatoren erfordern, sagt Stefano Albrecht, Assistenzprofessor für künstliche Intelligenz an der Universität Edinburgh. Eine neue Generation von Reinforcement-Learning-Algorithmen könnte „superschnell in der realen Welt aufgreifen, wie die Umgebung funktioniert“, sagt Albrecht.

source site

Leave a Reply