Key points are not available for this paper at this time.
大規模で実世界のデータセットが急速に増加する中、ロングテールデータ分布(すなわち、少数のクラスがデータの大部分を占める一方で、大多数のクラスが過小表現されている問題)に対処することが重要となっている。既存の解決策は、典型的には各クラスの観測数に基づいたリサンプリングや再重み付けなどのクラスリバランス戦略を採用している。本研究では、サンプル数が増加するにつれて、新たに追加されるデータポイントの付加的効果は減少すると主張する。サンプルごとに単一の点ではなく小さな隣接領域を関連付けることでデータの重複を測定する新しい理論的枠組みを導入する。有効なサンプル数はサンプルのボリュームとして定義され、シンプルな式 (1-β^n)/(1-β) により計算できる。ここで n はサンプル数、β ∈ [0, 1) はハイパーパラメータである。各クラスの有効サンプル数を用いた再重み付け方式を設計し、損失をリバランスすることでクラスバランス損失を実現する。人工的に誘発されたロングテールCIFARデータセットおよびImageNetやiNaturalistを含む大規模データセットで包括的な実験を行った。提案したクラスバランス損失で訓練すると、ネットワークはロングテールデータセット上で大幅な性能向上を達成できることを示した。
Cui et al.(Sat,)はこの問題を研究しました。