June 16, 2024

FoundationPose: Vereinheitlichte 6D-Pose-Schätzung und -Verfolgung neuartiger Objekte

Key Points

Key points are not available for this paper at this time.

Abstract

Wir präsentieren FoundationPose, ein einheitliches Grundmodell für die 6D-Objektpose-Schätzung und -Verfolgung, das sowohl modellbasierte als auch modellfreie Setups unterstützt. Unser Ansatz kann jederzeit zur Testzeit auf ein neuartiges Objekt ohne Feinabstimmung angewendet werden, solange das CAD-Modell vorliegt oder eine kleine Anzahl von Referenzbildern aufgenommen wird. Dank des einheitlichen Rahmens sind die nachgelagerten Pose-Schätzmodule in beiden Setups identisch, wobei eine neuronale implizite Darstellung für eine effiziente Synthese neuer Ansichten verwendet wird, wenn kein CAD-Modell verfügbar ist. Starke Generalisierbarkeit wird durch großflächiges synthetisches Training erreicht, unterstützt von einem großen Sprachmodell (LLM), einer neuartigen transformatorbasierten Architektur und einer kontrastiven Lernformulierung. Umfangreiche Auswertungen auf mehreren öffentlichen Datensätzen, die herausfordernde Szenarien und Objekte umfassen, zeigen, dass unser einheitlicher Ansatz bestehende Methoden, die speziell für jede Aufgabe entwickelt wurden, bei weitem übertrifft. Darüber hinaus erreicht er sogar vergleichbare Ergebnisse zu instanzbasierten Methoden, trotz der reduzierten Annahmen. Projektseite: https://nvlabs.github.io/FoundationPose/

KI fragen

Bookmark