Key points are not available for this paper at this time.
Die Multi-View 3D-Objekterkennung (MV3D-Det) aus der Vogelperspektive (BEV) hat aufgrund ihrer niedrigen Kosten und hohen Effizienz große Aufmerksamkeit auf sich gezogen. Obwohl kontinuierlich neue Algorithmen für die kamera-basierte 3D-Objekterkennung vorgeschlagen werden, besteht das Risiko eines drastischen Leistungsabfalls, wenn die Domäne der Eingabebilder von der Trainingsdomäne abweicht. In diesem Papier analysieren wir zunächst die Ursachen der Domänenlücke für die MV3D-Det-Aufgabe. Basierend auf der Annahme eines Kovariablenverschiebung finden wir heraus, dass die Lücke hauptsächlich auf die Merkmalsverteilung von BEV zurückzuführen ist, die durch die Qualität der Tiefenschätzung und die Merkmalsdarstellung des 2D-Bildes bestimmt wird. Um eine robuste Tiefenvorhersage zu erhalten, schlagen wir vor, die Tiefenschätzung von den intrinsischen Parametern der Kamera (d.h. der Brennweite) zu entkoppeln, indem wir die Vorhersage der metrischen Tiefe in die der skaleninvarianten Tiefe umwandeln und dynamische Perspektivvergrößerung durchführen, um die Vielfalt der extrinsischen Parameter (d.h. die Kameraeinstellungen) mithilfe von Homographie zu erhöhen. Darüber hinaus modifizieren wir die Brennweitenwerte, um mehrere Pseudo-Domänen zu erstellen, und konstruieren einen adversarischen Trainingsverlust, um die Merkmalsdarstellung dominienspezifischer zu gestalten. Ohne Schnickschnack mildert unser Ansatz, nämlich DG-BEV, erfolgreich den Leistungsabfall in der unbekannten Zieldomäne, ohne die Genauigkeit der Quelldomäne zu beeinträchtigen. Umfassende Experimente auf Waymo, nuScenes und Lyft zeigen die Verallgemeinerung und Wirksamkeit unseres Ansatzes.
Wang et al. (Thu,) haben diese Frage untersucht.