Les modèles de diffusion récents ont démontré des performances remarquables dans la génération de scènes 3D et les tâches de perception. Néanmoins, les méthodes existantes séparent généralement ces deux processus, agissant comme un augmentateur de données pour générer des données synthétiques destinées aux tâches de perception en aval. Dans ce travail, nous proposons OccScene, un nouveau paradigme d'apprentissage mutuel qui intègre la perception 3D fine et la génération de haute qualité dans un cadre unifié, réalisant un effet gagnant-gagnant inter-tâches. OccScene génère de nouvelles scènes 3D réalistes cohérentes uniquement à partir d'instructions textuelles, guidé par l'occupation sémantique dans un cadre de diffusion à entraînement conjoint. Pour aligner l'occupation avec le latent de diffusion, un module de double alignement basé sur Mamba est introduit afin d'incorporer des sémantiques fines et la géométrie comme connaissances a priori de perception. Au sein d'OccScene, le module de perception peut être efficacement amélioré grâce à des scènes générées personnalisées et variées, tandis que les connaissances a priori de perception améliorent en retour la performance de génération pour des bénéfices mutuels. De vastes expériences montrent qu'OccScene réalise une génération réaliste de scènes 3D dans de larges scénarios intérieurs et extérieurs, tout en renforçant simultanément les modèles de perception pour obtenir des améliorations de performance substantielles dans la tâche de perception 3D de prédiction de l'occupation sémantique.
Li et al. (Mer,) ont étudié cette question.