Key points are not available for this paper at this time.
マスク付き画像モデリング(MIM)手法、例えばマスク付きオートエンコーダー(MAE)は、入力の豊かな表現を効率的に学習します。しかし、下流タスクに適応するためには、豊かな特徴が物体だけでなく、あまり関連のない画像の背景もコーディングするため、十分な量のラベル付きデータが必要です。それに対して、インスタンス識別(ID)手法は物体に焦点を当てます。本研究では、MIMの効率とスケーラビリティを、ラベル付きデータの大量がない場合に下流分類を行うIDの能力と結合する方法を検討します。この目的のために、マスク付きオートエンコーダー対比調整(MAE-CT)を導入します。これは、事前に訓練されたMAEの最上層に抽象化を誘発するために、最近傍対比学習(NNCLR)目標の暗黙的クラスタリングを利用する逐次的アプローチです。MAE-CTは、ラベルを使用せずにオブジェクトのセマンティッククラスタを形成するように豊かな特徴を調整します。特に、MAE-CTは手作りの拡張には依存せず、最小限の拡張(クロップ&フリップ)を使用するだけで最高のパフォーマンスをしばしば達成します。さらに、MAE-CTは計算効率が良く、MAE再訓練に比べて最大10%のオーバーヘッドが必要です。大規模および巨大なビジョントランスフォーマー(ViT)モデルに適用されたMAE-CTは、ImageNetで訓練された以前の自己監視手法を線形プロービング、k-NN、および低ショット分類精度、さらに無監督クラスタリング精度において上回ります。ViT-H/16を使用したMAE-CTは、線形プロービングにおいて82.2%という新しい最先端を達成します。プロジェクトページ:github.com/ml-jku/MAE-CT。
Lehner et al. (Sun,) はこの問題を研究しました。
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: