Los puntos clave no están disponibles para este artículo en este momento.
Con el rápido aumento de conjuntos de datos del mundo real a gran escala, se vuelve crítico abordar el problema de la distribución de datos de cola larga (es decir, unas pocas clases representan la mayor parte de los datos, mientras que la mayoría de las clases están sub-representadas). Las soluciones existentes típicamente adoptan estrategias de reequilibrio de clases como el re-muestreo y el re-pesado basado en el número de observaciones para cada clase. En este trabajo, argumentamos que a medida que aumenta el número de muestras, el beneficio adicional de un nuevo punto de datos añadido disminuirá. Introducimos un novedoso marco teórico para medir la superposición de datos, asociando a cada muestra una pequeña región vecina en lugar de un solo punto. El número efectivo de muestras se define como el volumen de muestras y se puede calcular mediante una fórmula simple (1-β n )/(1-β), donde n es el número de muestras y β ∈ [0, 1) es un hiperparámetro. Diseñamos un esquema de re-pesado que utiliza el número efectivo de muestras para cada clase para reequilibrar la pérdida, lo que produce una pérdida balanceada por clases. Se realizan experimentos exhaustivos en conjuntos de datos CIFAR de cola larga inducidos artificialmente y conjuntos de datos a gran escala, incluidos ImageNet e iNaturalist. Nuestros resultados muestran que cuando se entrena con la pérdida balanceada por clases propuesta, la red es capaz de lograr mejoras significativas en el rendimiento en conjuntos de datos de cola larga.
Cui et al. (Sat,) estudiaron esta cuestión.