July 26, 2024Open Access

サンプル選択とバランスの取れた損失を用いたロングテールノイズデータからの学習

Key Points

Key points are not available for this paper at this time.

Abstract

ディープラーニングの成功は、大規模で適切にキュレーションされたトレーニングデータに依存していますが、実世界のアプリケーションにおけるデータは一般的にロングテールでノイズが多いです。既存の手法は通常、クラスの不均衡に対処するためにラベルの頻度に依存していますが、異なるクラスに対するモデルのバイアスはラベルの頻度に直接関連しておらず、ラベルノイズの下では真のラベル頻度にアクセスできません。これを解決するために、サンプル選択とバランスの取れた損失を用いてロングテールノイズデータから学習するための堅牢な手法を提案します。具体的には、サンプル選択を用いてノイズの多いトレーニングデータをクリーンなラベル付きセットとラベルなしセットに分け、モデルのバイアスに基づいてバランスの取れた損失で半教師あり方式でディープニューラルネットワークをトレーニングします。ベンチマークに関する広範な実験により、我々の方法が既存の最先端の手法より優れていることが示されています。

Read Full Paperexternally

AIに質問

Bookmark

View Full Paper