Key points are not available for this paper at this time.
本研究は、テキスト記述から複数の人間の自然で多様なグループモーションを生成することを目的としています。単一人物のテキストからモーション生成は広く研究されていますが、実際のプロンプトから1人以上の被験者のモーションを合成することは、利用可能なデータセットの不足により依然として難しいままです。本研究では、大規模な画像およびビデオデータセットからポーズ情報を推定することで、人間のポーズとモーションのデータセットを整備します。我々のモデルは、任意の数の被験者またはフレームを持つ複数のデータセットに対応するトランスフォーマーベースの拡散フレームワークを使用しています。実験では、多人数の静的ポーズの生成と多人数のモーションシーケンスの生成の両方を探ります。我々の知る限り、我々の手法は、多様なテキストプロンプトから高い多様性と忠実度を持つ複数主体のモーションシーケンスを生成する初めての手法です。
Shan et al. (Tue,) はこの問題を研究しました。