MIT-Forscher stellen ein neues Computer-Vision-System vor, das jedes glänzende Objekt in eine Art Kamera verwandelt: Es ermöglicht einem Beobachter, um Ecken oder über Hindernisse hinaus zu sehen

https://arxiv.org/abs/2212.04531

Aus dem Spiegelbild eines Objekts lassen sich wertvolle und oft verborgene Informationen über die unmittelbare Umgebung eines Menschen gewinnen. Indem man sie als Kameras umfunktioniert, kann man bisher undenkbare Bildkunststücke vollbringen, wie zum Beispiel den Blick durch Wände oder in den Himmel. Dies ist eine Herausforderung, da mehrere Faktoren die Reflexionen beeinflussen, darunter die Geometrie des Objekts, die Materialeigenschaften, die 3D-Umgebung und der Standpunkt des Betrachters. Durch die interne Dekonstruierung der Geometrie und Strahlung des Objekts aus der darauf reflektierten Spiegelstrahlung können Menschen Tiefen- und semantische Hinweise auf die verdeckten Teile in der Umgebung ableiten.

Computer-Vision-Forscher am MIT und Rice haben eine Methode entwickelt, um mithilfe von Reflexionen Bilder der realen Umgebung zu erzeugen. Mithilfe von Reflexionen verwandeln sie glänzende Objekte in „Kameras“ und erwecken den Eindruck, dass der Benutzer die Welt durch die „Linsen“ alltäglicher Gegenstände wie einer Kaffeetasse aus Keramik oder eines Briefbeschwerers aus Metall betrachtet.

Die von den Forschern verwendete Methode besteht darin, glänzende Objekte mit unbestimmter Geometrie in Strahlungsfeldkameras umzuwandeln. Die Grundidee besteht darin, die Oberfläche des Objekts als digitalen Sensor zu nutzen, um reflektiertes Licht aus der Umgebung zweidimensional zu erfassen.

🚀 Schauen Sie sich 100 KI-Tools in unserem AI Tools Club an

Forscher zeigen, dass die Synthese neuartiger Ansichten, die Wiedergabe neuartiger Ansichten, die nur für das glänzende Objekt in der Szene, nicht aber für den Betrachter direkt sichtbar sind, dank der Wiederherstellung der Strahlungsfelder der Umgebung möglich ist. Darüber hinaus können wir mithilfe des Strahlungsfeldes Verdeckungen abbilden, die von nahegelegenen Objekten in der Szene erzeugt werden. Die von den Forschern entwickelte Methode wird von Anfang bis Ende anhand vieler Fotos des Objekts vermittelt, um gleichzeitig seine Geometrie, diffuse Strahlung und das Strahlungsfeld seiner 5D-Umgebung abzuschätzen.

Ziel der Forschung ist es, das Objekt von seinen Reflexionen zu trennen, damit das Objekt die Welt wie eine Kamera „sehen“ und seine Umgebung aufzeichnen kann. Computer Vision hat seit einiger Zeit mit Reflexionen zu kämpfen, da es sich dabei um eine verzerrte 2D-Darstellung einer 3D-Szene handelt, deren Form unbekannt ist.

Forscher modellieren die Oberfläche des Objekts als virtuellen Sensor und sammeln die 2D-Projektion des 5D-Umgebungsstrahlungsfeldes um das Objekt herum, um eine 3D-Darstellung der Welt zu erstellen, wie das Ding es sieht. Der größte Teil des Strahlungsfeldes der Umgebung wird außer durch die Reflexionen des Objekts verdeckt. Über das Sichtfeld hinaus wird die Synthese neuartiger Ansichten oder die Darstellung neuartiger Ansichten, die nur für das glänzende Objekt in der Szene, nicht aber für den Betrachter direkt sichtbar sind, durch die Verwendung von Umgebungsstrahlungsfeldern ermöglicht, die dies ebenfalls ermöglichen zur Tiefen- und Strahldichteschätzung vom Objekt zu seiner Umgebung.

Zusammenfassend hat das Team Folgendes getan:

  • Sie demonstrieren, wie implizite Oberflächen in virtuelle Sensoren umgewandelt werden können, mit der Möglichkeit, 3D-Bilder ihrer Umgebung nur mithilfe virtueller Kegel zu erfassen.
  • Gemeinsam berechnen sie das 5D-Umgebungsstrahlungsfeld des Objekts und schätzen seine diffuse Strahlung.
  • Sie zeigen, wie man das Lichtfeld der Umgebung nutzt, um neue, für das menschliche Auge unsichtbare Blickwinkel zu erzeugen.

Dieses Projekt zielt darauf ab, das 5D-Strahlungsfeld der Umgebung aus vielen Fotografien eines glänzenden Gegenstands zu rekonstruieren, dessen Form und Albedo unbekannt sind. Blendung durch reflektierende Oberflächen bringt Szenenelemente außerhalb des Sichtfeldes zum Vorschein. Konkret bestimmen die Oberflächennormalen und die Krümmung des glänzenden Objekts, wie die Bilder des Betrachters auf die reale Welt abgebildet werden.

Forscher benötigen möglicherweise genauere Informationen über die Form des Objekts oder die reflektierte Realität, was zur Verzerrung beiträgt. Es ist auch möglich, dass Farbe und Textur des glänzenden Objekts mit den Reflexionen verschmelzen. Darüber hinaus ist es nicht einfach, die Tiefe in reflektierten Szenen zu erkennen, da es sich bei Reflexionen um zweidimensionale Projektionen einer dreidimensionalen Umgebung handelt.

Das Forscherteam überwand diese Hindernisse. Sie beginnen damit, das glänzende Objekt aus verschiedenen Blickwinkeln zu fotografieren und dabei verschiedene Reflexionen einzufangen. Orca (Objects such as Radiance-Field Cameras) ist die Abkürzung für ihren dreistufigen Prozess.

Orca kann Multiview-Reflexionen aufzeichnen, indem es das Objekt aus verschiedenen Winkeln abbildet. Diese werden dann verwendet, um die Tiefe zwischen dem glänzenden Objekt und anderen Objekten in der Szene sowie die Form des glänzenden Objekts selbst abzuschätzen. Weitere Informationen über die Stärke und Richtung der Lichtstrahlen, die von jedem Punkt im Bild ausgehen und dort auftreffen, werden vom 5D-Strahlungsfeldmodell von ORCa erfasst. Dank der Daten in diesem 5D-Strahlungsfeld kann Orca genauere Tiefenschätzungen vornehmen. Da die Szene als 5D-Strahlungsfeld und nicht als 2D-Bild angezeigt wird, kann der Benutzer Details erkennen, die sonst durch Ecken oder andere Hindernisse verdeckt würden. Forscher erklären, dass der Benutzer, sobald ORCa das 5D-Strahlungsfeld erfasst hat, eine virtuelle Kamera an einer beliebigen Stelle im Bereich positionieren und das synthetische Bild erzeugen kann, das die Kamera erzeugen würde. Der Benutzer kann auch das Aussehen eines Gegenstands ändern, beispielsweise von Keramik zu Metall, oder virtuelle Dinge in die Szene integrieren.

Durch die Erweiterung der Definition des Strahlungsfeldes über das herkömmliche Strahlungsfeld mit direkter Sichtlinie hinaus können Forscher neue Wege der Untersuchung der Umgebung und der darin befindlichen Objekte eröffnen. Mithilfe projizierter virtueller Ansichten und Tiefe kann die Arbeit Möglichkeiten für das Einfügen virtueller Gegenstände und die 3D-Wahrnehmung eröffnen, beispielsweise die Extrapolation von Informationen von außerhalb des Sichtfelds der Kamera.


Besuche die Papier Und Projektseite. Vergessen Sie nicht, mitzumachen unser 22k+ ML SubReddit, Discord-KanalUnd E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an [email protected]

🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an

Dhanshree Shenwai ist Informatikingenieur und verfügt über gute Erfahrung in FinTech-Unternehmen in den Bereichen Finanzen, Karten & Zahlungen und Bankwesen mit großem Interesse an Anwendungen von KI. Sie ist begeistert davon, neue Technologien und Fortschritte in der sich entwickelnden Welt von heute zu erforschen, um das Leben aller einfacher zu machen.

➡️ Ultimativer Leitfaden zur Datenkennzeichnung beim maschinellen Lernen

source site

Leave a Reply