April 25, 2024Open Access

OpenDlign: 深度に整列した画像を用いたオープン世界3D学習の強化

Key Points

OpenDlignは、深度整列画像を利用することで無視されたカテゴリにおける3D学習能力を大幅に向上させ、優れたパフォーマンスを引き出します。
結果は、ModelNet40で8.0%、OmniObject3Dで16.4%の改善を示しており、わずか600万パラメータでの効果的な知識転送を証明しています。
深度特有のテキストプロンプトと最適化された深度マップ投影の評価は、いくつかのベンチマークでの3Dタスクにおいてビジョンと言語モデルの適応が改善されたことを明らかにし、ゼロショットシナリオや少数ショットタスクにおいて、従来の手法よりも高い整合性の堅牢性を示しています。生成された深度整列画像の統合は、既存の3D学習パイプラインを一貫して強化し、学習アルゴリズムにおける現実的データの重要性を強調しています。

Abstract

最近の視覚と言語モデル（VLM）の進歩により、オープン世界3D表現が向上し、未見のカテゴリにおける3Dゼロショット機能が促進されました。既存のオープン世界手法は、3Dデータ（例：深度マップまたは点群）からの特徴をCADレンダリングされた画像および対応するテキストと整列させるために、追加の3Dエンコーダを事前学習します。しかし、CAD画像の限られた色やテクスチャの変動は、整列の堅牢性を損なう可能性があります。さらに、3DエンコーダとVLMの事前学習データセット間のボリュームの不一致は、サブ最適な2Dから3Dへの知識移転を引き起こします。これらの問題を克服するために、我々はOpenDlignを提案します。これは、点群から投影された深度マップから生成された深度に整列した画像を利用した、オープン世界の3D表現を学習するための新しいフレームワークです。CADレンダリングされた画像とは異なり、我々の生成した画像は、深度マップとの幾何学的および意味的な整合性を維持しながら、豊かでリアルな色とテクスチャの多様性を提供します。OpenDlignはまた、深度マップの投影を最適化し、深度特有のテキストプロンプトを統合することで、3D学習の効率的なファインチューニングのための2D VLM知識適応を改善します。実験結果は、OpenDlignがゼロショットおよび少ショット3Dタスクにおいて既存のベンチマークを大幅に上回り、ModelNet40では前のスコアを8.0%、OmniObject3Dでは16.4%上回ることを示しています。わずか600万の調整パラメータでこれを達成しています。さらに、生成された深度に整列した画像を既存の3D学習パイプラインに統合することは、そのパフォーマンスを一貫して向上させます。

Read Full Paperexternally

AIに質問

Bookmark

View Full Paper