Key points are not available for this paper at this time.
ポーズ推定手法は、3Dスケルトンシーケンスという構造化された形で、一般的なビデオから人間の動きを抽出することを可能にします。大きな応用機会があるにもかかわらず、そのような時空間の動的データへの効果的なコンテンツベースのアクセスは、困難な問題です。本論文では、特定の自然言語のテキスト記述(テキストから動き)に最も関連するデータベースの動きを検索することを目的とした、最近導入されたテキスト-動き検索タスクに焦点を当てます。さらに、逆に(動きからテキスト)でも同様です。これらの有望な道を探る最近の試みにもかかわらず、主な課題は、 robustなテキスト-動きモデルを効果的に訓練するための不十分なデータです。この問題に対処するために、複数のテキスト-動きデータセットで同時に学習する共同データセット学習を調査し、学習されたテキスト-動き共通空間を正則化するクロス整合対照損失関数(CCCL)を導入することを提案します。これは、学習されたネットワークの表現能力を増強する単一モーダル制約を課すことによって実現します。適切な動きの表現を学ぶために、モーションエンコーダーMoT++を導入します。このエンコーダーは、スケルトンデータのシーケンスを処理するために時空間注意を採用しています。提案されたアプローチの利点を広く使用されるKIT Motion-LanguageおよびHumanML3Dデータセット上で示します。共同データセット学習とクロスデータセットシナリオに関する詳細な実験を行い、慎重に実施されたアブレーションスタディにおいて、各モジュールの効果を示すとともに、最先端の手法の限界を指摘します。
Messinaら(火曜日)はこの問題を研究しました。