Key points are not available for this paper at this time.
Ce document aborde de nouvelles méthodologies pour traiter la tâche difficile de générer des interactions humaines-objets dynamiques à partir de descriptions textuelles (Text2HOI). Alors que la plupart des travaux existants supposent des interactions avec des parties du corps limitées ou des objets statiques, notre tâche implique de traiter simultanément la variation du mouvement humain, la diversité des formes d'objet et l'ambiguïté sémantique du mouvement des objets. Pour relever ce défi, nous proposons un nouveau modèle de diffusion d'interaction humain-objet guidé par texte avec intervention relationnelle (THOR). THOR est un modèle de diffusion cohérent équipé d'un mécanisme d'intervention relationnelle. À chaque étape de diffusion, nous initions le mouvement humain et d'objet guidé par texte, puis nous exploitons les relations humain-objet pour intervenir dans le mouvement des objets. Cette intervention améliore les relations spatio-temporelles entre les humains et les objets, la représentation d'interaction centrée sur l'humain fournissant des directives supplémentaires pour synthétiser un mouvement cohérent à partir du texte. Pour obtenir des résultats plus raisonnables et réalistes, des pertes d'interaction sont introduites à différents niveaux de granularité du mouvement. De plus, nous construisons Text-BEHAVE, un ensemble de données Text2HOI qui intègre sans effort des descriptions textuelles avec le plus grand ensemble de données 3D HOI disponible publiquement. Des expériences quantitatives et qualitatives démontrent l'efficacité de notre modèle proposé.
Wu et al. (Sun,) ont étudié cette question.