Key points are not available for this paper at this time.
Die kategorielevel 6D-Pose-Schätzung zielt darauf ab, die Posen und Größen von unbekannten Objekten aus einer spezifischen Kategorie vorherzusagen. Dank der priorbasierten Deformation, die einen kategoriespezifischen 3D-Prior (d.h. eine 3D-Vorlage) an eine gegebene Objektinstanz anpasst, haben priorbasierte Methoden großen Erfolg erzielt und sind zu einem wichtigen Forschungsbereich geworden. Allerdings erfordert der Erwerb kategoriespezifischer Prädiktoren das Sammeln einer großen Anzahl von 3D-Modellen, was arbeitsintensiv ist und in der Praxis oft nicht zugänglich ist. Dies motiviert uns zu untersuchen, ob Prioren notwendig sind, um priorbasierte Methoden effektiv zu machen. Unsere empirische Studie zeigt, dass der 3D-Prior selbst nicht für die hohe Leistung verantwortlich ist. Der entscheidende Punkt ist eigentlich der explizite Deformationsprozess, der Kamerakoordinaten und Weltkoordinaten unter Anleitung von Weltraum-3D-Modellen (auch als kanonischer Raum bezeichnet) ausrichtet. Inspiriert von diesen Beobachtungen stellen wir ein einfaches priorfreies Netzwerk für implizite Raumtransformationen vor, nämlich IST-Net, um Kameraspace-Features in die World-Space-Gegenstücke zu transformieren und implizite Korrespondenzen zwischen ihnen herzustellen, ohne auf 3D-Prioren angewiesen zu sein. Darüber hinaus entwerfen wir Kamera- und Weltraum-Enhancer, um die Merkmale mit pose-sensitiven Informationen und geometrischen Einschränkungen zu bereichern. Obwohl einfach, erreicht IST-Net eine Spitzenleistung basierend auf einem priorfreien Design, mit der höchsten Inferenzgeschwindigkeit im REAL275 Benchmark. Unser Code und unsere Modelle sind unter https://github.com/CVMI-Lab/IST-Net verfügbar.
Liu et al. (Sun) untersuchten diese Frage.