Key points are not available for this paper at this time.
本論文では、事前学習済みのビデオディフュージョンモデルを活用してスケーラブルな3D生成モデルを構築する新しいパラダイムを提案します。基盤となる3D生成モデルの開発における主な障害は、3Dデータの入手困難性です。画像、テキスト、ビデオとは異なり、3Dデータは容易にアクセスできず、取得が難しいため、他の大量のデータと比較して規模に大きなギャップがあります。この問題を解決するために、膨大なテキスト、画像、ビデオで訓練されたビデオディフュージョンモデルを3Dデータの知識源として利用することを提案します。ファインチューニングによって多視点生成能力を解放し、大規模な合成多視点データセットを生成してフィードフォワード型の3D生成モデルを訓練します。提案モデルであるVFusion3Dは約300万件の合成多視点データで訓練され、単一画像から数秒で3Dアセットを生成可能であり、現行の最先端フィードフォワード3D生成モデルと比較して優れた性能を示し、ユーザは70%以上の割合で本モデルの結果を好みました。
Hanら(Mon,)はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: