March 24, 2024Open Access

Mitigación del ruido de etiquetas a través de la ambigüedad de datos

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

El ruido de etiquetas presenta un desafío importante en el aprendizaje automático, especialmente en el aprendizaje profundo, donde los grandes modelos con alta capacidad expresiva dominan el campo. Este tipo de modelos tiende a memorizar etiquetas incorrectas, perjudicando así el rendimiento de la generalización. Se han propuesto muchos métodos para abordar este problema, incluidas funciones de pérdida robustas y enfoques más complejos de corrección de etiquetas. Las funciones de pérdida robustas son atractivas debido a su simplicidad, pero normalmente carecen de flexibilidad, mientras que la corrección de etiquetas generalmente añade una complejidad sustancial al conjunto de entrenamiento. En este artículo, sugerimos abordar las deficiencias de ambas metodologías "ambigüedando" la información objetivo, añadiendo etiquetas candidatas adicionales y complementarias en caso de que el aprendiz no esté suficientemente convencido de la etiqueta de entrenamiento observada. Más precisamente, aprovechamos el marco del llamado aprendizaje de conjunto de superset para construir objetivos con valores de conjunto basados en un umbral de confianza, que proporcionan creencias imprecisas pero más confiables sobre la verdad fundamental, ayudando efectivamente al aprendiz a suprimir el efecto de memorización. En una evaluación empírica extensa, nuestro método demuestra un comportamiento de aprendizaje favorable en ruido sintético y del mundo real, confirmando la efectividad para detectar y corregir etiquetas de entrenamiento erróneas.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo