Key points are not available for this paper at this time.
CAM(クラスアクティベーションマップ)が通常、識別的な物体領域のみを活性化し、物体関連の背景を多数含んでしまうことは広く知られています。WSSS(弱教師ありセマンティックセグメンテーション)モデルには固定された画像レベルの物体ラベルのセットしか利用できないため、オープンセットオブジェクトから成る多様な背景領域を抑制することは非常に難しい場合があります。本論文では、WSSSのために最近導入されたコントラスト言語画像事前学習(CLIP)モデルに基づく新しいクロスランゲージ画像マッチング(CLIMS)フレームワークを提案します。私たちのフレームワークの中心的なアイデアは、より完全な物体領域を活性化し、密接に関連するオープン背景領域を抑制するために自然言語の監視を導入することです。特に、各カテゴリのCAMのために、モデルがより合理的な物体領域を活性化するように誘導するための物体、背景領域、テキストラベルのマッチング損失を設計します。さらに、あらかじめ定義されたクラス関連の背景テキスト記述に基づいて、モデルが密接に関連する背景領域を活性化しないようにする共同出現背景抑制損失も設計します。これらの設計により、提案されたCLIMSはターゲット物体のためにより完全でコンパクトなアクティベーションマップを生成することが可能になります。PASCAL VOC2012データセットにおける広範な実験では、我々のCLIMSが以前の最先端の手法を大きく上回ることを示しています。コードは https://github.com/CVI-SZU/CLIMS で入手可能になります。
Xie et al. (Wed,) がこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: