Key points are not available for this paper at this time.
Les détecteurs d'objets 3D à haute performance actuels s'appuient généralement sur la stratégie de fusion multimodale. Cependant, cette conception est fondamentalement limitée parce qu'elle néglige les informations utiles spécifiques à chaque modalité, ce qui nuit finalement à la performance du modèle. Pour remédier à cette limitation, dans ce travail, nous introduisons une nouvelle stratégie d'interaction de modalités où des représentations individuelles par modalité sont apprises et maintenues tout au long pour permettre l'exploitation de leurs caractéristiques uniques lors de la détection d'objets. Pour réaliser cette stratégie proposée, nous concevons une architecture DeepInteraction caractérisée par un encodeur d'interaction représentational multimodale et un décodeur d'interaction prédictive multimodale. Les expériences sur le grand dataset nuScenes montrent que notre méthode proposée surpasse tous les travaux antérieurs, souvent par une large marge. De manière cruciale, notre méthode est classée en première position dans le classement très compétitif de détection d'objets nuScenes.
Yang et al. (Tue,) ont étudié cette question.