What type of study is this?

September 10, 2025

OccScene : Apprentissage mutuel inter-tâches basé sur l'occupation sémantique pour la génération de scènes 3D

Key Points

OccScene réalise une génération réaliste de scènes 3D à partir d'instructions textuelles, améliorant la qualité des scènes générées.
L'intégration des tâches de perception et de génération conduit à un bénéfice mutuel, améliorant significativement les métriques de performance.
Grâce à un module de double alignement basé sur Mamba, les sémantiques fines et la géométrie sont efficacement utilisées comme connaissances a priori.
De nombreuses expériences démontrent des améliorations significatives des performances tant dans les tâches de génération que de perception à travers divers scénarios.

Abstract

Les modèles de diffusion récents ont démontré des performances remarquables dans la génération de scènes 3D et les tâches de perception. Néanmoins, les méthodes existantes séparent généralement ces deux processus, agissant comme un augmentateur de données pour générer des données synthétiques destinées aux tâches de perception en aval. Dans ce travail, nous proposons OccScene, un nouveau paradigme d'apprentissage mutuel qui intègre la perception 3D fine et la génération de haute qualité dans un cadre unifié, réalisant un effet gagnant-gagnant inter-tâches. OccScene génère de nouvelles scènes 3D réalistes cohérentes uniquement à partir d'instructions textuelles, guidé par l'occupation sémantique dans un cadre de diffusion à entraînement conjoint. Pour aligner l'occupation avec le latent de diffusion, un module de double alignement basé sur Mamba est introduit afin d'incorporer des sémantiques fines et la géométrie comme connaissances a priori de perception. Au sein d'OccScene, le module de perception peut être efficacement amélioré grâce à des scènes générées personnalisées et variées, tandis que les connaissances a priori de perception améliorent en retour la performance de génération pour des bénéfices mutuels. De vastes expériences montrent qu'OccScene réalise une génération réaliste de scènes 3D dans de larges scénarios intérieurs et extérieurs, tout en renforçant simultanément les modèles de perception pour obtenir des améliorations de performance substantielles dans la tâche de perception 3D de prédiction de l'occupation sémantique.

Bookmark

OccScene : Apprentissage mutuel inter-tâches basé sur l'occupation sémantique pour la génération de scènes 3D

Key Points

Abstract

Cite This Study