最近の視覚と言語モデル(VLM)の進歩により、オープン世界3D表現が向上し、未見のカテゴリにおける3Dゼロショット機能が促進されました。既存のオープン世界手法は、3Dデータ(例:深度マップまたは点群)からの特徴をCADレンダリングされた画像および対応するテキストと整列させるために、追加の3Dエンコーダを事前学習します。しかし、CAD画像の限られた色やテクスチャの変動は、整列の堅牢性を損なう可能性があります。さらに、3DエンコーダとVLMの事前学習データセット間のボリュームの不一致は、サブ最適な2Dから3Dへの知識移転を引き起こします。これらの問題を克服するために、我々はOpenDlignを提案します。これは、点群から投影された深度マップから生成された深度に整列した画像を利用した、オープン世界の3D表現を学習するための新しいフレームワークです。CADレンダリングされた画像とは異なり、我々の生成した画像は、深度マップとの幾何学的および意味的な整合性を維持しながら、豊かでリアルな色とテクスチャの多様性を提供します。OpenDlignはまた、深度マップの投影を最適化し、深度特有のテキストプロンプトを統合することで、3D学習の効率的なファインチューニングのための2D VLM知識適応を改善します。実験結果は、OpenDlignがゼロショットおよび少ショット3Dタスクにおいて既存のベンチマークを大幅に上回り、ModelNet40では前のスコアを8.0%、OmniObject3Dでは16.4%上回ることを示しています。わずか600万の調整パラメータでこれを達成しています。さらに、生成された深度に整列した画像を既存の3D学習パイプラインに統合することは、そのパフォーマンスを一貫して向上させます。
Ye et al. (木曜日)はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: