February 20, 2024Open Access

デュアルメタラーニングによる半教師ありテキスト分類の改善

Key Points

Key points are not available for this paper at this time.

Abstract

半教師ありテキスト分類 (SSTC) の目標は、少数のラベル付きデータと大量のラベルなしデータの両方を探索することによってモデルを訓練し、学習された半教師あり分類器がラベル付きサンプルのみで訓練された教師あり分類器よりも優れた性能を発揮するようにすることです。擬似ラベリングは、最も広く使用されているSSTC技術の一つであり、少数のラベル付き例を持つ教師分類器を訓練して、ラベルなしデータに対して擬似ラベルを予測します。生成された擬似ラベル付き例は、学生分類器の訓練に利用され、学習された学生分類器が教師分類器を上回ることができるようにします。しかしながら、予測された擬似ラベルが不正確である可能性があり、その結果学生分類器の性能が低下します。学生分類器が教師分類器よりも劣る可能性もあります。この問題を軽減するために、本論文では、半教師ありテキスト分類のためにデュアルメタラーニング (DML) 技術を導入し、教師および学生分類器を反復的に同時に改善します。具体的には、メタラーニングを用いてノイズの擬似ラベルを修正するためのノイズ遷移行列 (NTM) を提案することで、学生分類器を改善するメタノイズ補正方法を提案します。さらに、教師分類器を改善するためにメタ擬似監督法を考案します。具体的には、学生分類器からのフィードバック性能を利用して、教師分類器がラベルなしデータのためにより正確な擬似ラベルを生成できるように更なるガイダンスを行います。このようにして、教師分類器と学生分類器は反復的な訓練プロセスの中で共進化することができます。4つのベンチマークデータセットにおける広範な実験は、半教師ありテキスト分類のための既存の最先端の方法に対して、我々のDML手法の有効性を強調しています。本論文のコードとデータは、https://github.com/GRIT621/DML にて公開しています。

デュアルメタラーニングによる半教師ありテキスト分類の改善

Key Points

Abstract

Cite This Study

Also Consider

Also Consider