Key points are not available for this paper at this time.
現在の画像レベルラベルを用いた弱教師ありセマンティックセグメンテーション(WSSS)手法は、主にクラスアクティベーションマップ(CAM)を採用して初期の擬似ラベルを生成します。しかし、CAMは通常、最も識別的なオブジェクトの範囲のみを特定するため、ネットワークは画像レベルのラベルを認識するために完全なオブジェクトを発見する必要がありません。この問題に対処するために、本研究では画像レベルのラベルと局所の視覚語ラベルを同時に学習することを提案しました。具体的には、各フォワード伝播において、入力画像の特徴マップは学習可能なコードブックを使用して視覚語にエンコードされます。エンコードされた細かい視覚語を分類するようネットワークに強制することで、生成されたCAMはより多くのセマンティック領域をカバーすることができます。さらに、特徴マップの局所的な最大値とグローバルな平均値を保持できるハイブリッド空間ピラミッドプーリングモジュールも提案し、より多くのオブジェクトの詳細を考慮し、背景をより少なくすることができます。提案した手法に基づき、PASCAL VOC 2012データセットで実験を行いました。我々の提案した手法は、valセットで67.2%のmIoU、テストセットで67.3%のmIoUを達成し、最近の最先端手法を上回りました。
Ru et al. (Sun,) はこの問題を研究しました。
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: