Key points are not available for this paper at this time.
ワンショットトーキングフェイス生成は、合理的な表情や頭のポーズのアニメーションと共に高視覚品質の顔動画を合成し、任意のドライブオーディオと任意の単一の顔画像をソースとして利用する必要があります。現行の研究は、適切な高解像度オーディオビジュアルデータセットの欠如と、表情の詳細が不十分なスパースな顔のランドマークの制約により、256×256以上の解像度のリアルな動画を生成できていません。高解像度の動画を合成するために、我々は大規模な野生の高解像度オーディオビジュアルデータセットを構築し、新しいフローガイドトーキングフェイス生成フレームワークを提案します。この新しいデータセットはYouTubeから収集され、約16時間の720Pまたは1080Pの動画で構成されています。我々は顔の3Dモーフィングモデル(3DMM)を活用して、フレームワークをオーディオからビデオへの直接的なマッピングを学習するのではなく、2つのカスケードモジュールに分割します。最初のモジュールでは、口、眉、および頭のポーズの動きを同時に生成する新しいアニメーションジェネレーターを提案します。2番目のモジュールでは、アニメーションを密なフローに変換して、より多くの表情の詳細を提供し、注意深く設計された新しいフローガイドビデオジェネレーターを用いて動画を合成します。我々の方法は高解像度の動画を生成でき、客観的および主観的な比較において最先端の作品を上回っています。
Zhang et al. (Tue,) はこの問題を研究した。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: