La synthèse de scènes 3D compositionnelles a des applications diversifiées dans un éventail d'industries telles que la robotique, le cinéma et les jeux vidéo, car elle reflète étroitement la complexité des environnements multi-objets du monde réel. Les travaux conventionnels utilisent généralement des cadres basés sur la récupération de formes, qui souffrent naturellement d'une diversité de formes limitée. Des progrès récents ont été réalisés dans la génération de formes d'objets avec des modèles génératifs tels que les modèles de diffusion, ce qui augmente la fidélité des formes. Cependant, ces approches traitent séparément la génération de formes 3D et la génération de mises en page. Les scènes synthétisées sont souvent entravées par des collisions de mise en page, ce qui suggère que la fidélité au niveau de la scène est encore sous-explorée. Dans cet article, nous visons à générer des scènes intérieures 3D réalistes et raisonnables à partir de graphiques de scène. Pour enrichir les priors des entrées de graphique de scène données, un grand modèle de langage est utilisé pour agréger les caractéristiques globales avec des caractéristiques locales de nœud et de bord. Avec un encodeur de graphe unifié, des caractéristiques de graphe sont extraites pour guider la génération conjointe de mise en page et de forme. Une régularisation supplémentaire est introduite pour contraindre explicitement les mises en page 3D produites. Évaluée sur le jeu de données SG-FRONT, notre méthode atteint une meilleure synthèse de scène 3D, en particulier en termes de fidélité au niveau de la scène. Le code source sera publié après la publication. Synthèse de scène intérieure 3D, modèle génératif, graphique de scène, grand modèle de langage, arrangement spatial, diffusion latente.
Wei et al. (Mercredi,) ont étudié cette question.