Key points are not available for this paper at this time.
Die Generierung menschlicher Bewegungen aus textlichen Beschreibungen hat aufgrund ihrer Vielzahl an Anwendungen zunehmendes Forschungsinteresse gewonnen. Allerdings betrachten nur wenige Arbeiten die Interaktionen zwischen Mensch und Szene zusammen mit textlichen Bedingungen, was für visuelle und physikalische Realismus entscheidend ist. Dieses Papier konzentriert sich auf die Aufgabe, menschliche Bewegungen in 3D-Innenräumen basierend auf Textbeschreibungen der Mensch-Szenen-Interaktionen zu generieren. Diese Aufgabe bringt Herausforderungen mit sich, aufgrund der multimodalen Natur von Text, Szene und Bewegung sowie der Notwendigkeit räumlicher Überlegungen. Um diese Herausforderungen anzugehen, schlagen wir einen neuen Ansatz vor, der das komplexe Problem in zwei überschaubarere Teilprobleme zerlegt: (1) Sprachverankerung des Zielobjekts und (2) objektzentrierte Bewegungsgenerierung. Für die Sprachverankerung des Zielobjekts nutzen wir die Leistungsfähigkeit großer Sprachmodelle. Für die Bewegungsgenerierung entwerfen wir eine objektzentrierte Szenenrepräsentation für das generative Modell, um den Fokus auf das Zielobjekt zu richten, wodurch die Komplexität der Szene verringert und die Modellierung der Beziehung zwischen menschlichen Bewegungen und dem Objekt erleichtert wird. Experimente zeigen die bessere Bewegungsqualität unseres Ansatzes im Vergleich zu Baselines und validieren unsere Designentscheidungen.
Cen et al. (Mon,) untersuchten diese Frage.