August 30, 2024Open Access

Evaluación de la fiabilidad en DNNs médicos: un análisis crítico de la detección OOD basada en características y confianza

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

El uso fiable de redes neuronales profundas (DNNs) para el análisis de imágenes médicas requiere métodos para identificar entradas que difieran significativamente de los datos de entrenamiento, denominadas fuera de distribución (OOD), para prevenir predicciones erróneas. Los métodos de detección OOD pueden ser categorizados como basados en confianza (usando la capa de salida del modelo para la detección OOD) o basados en características (no utilizando la capa de salida). Creamos dos nuevos benchmarks OOD dividiendo los conjuntos de datos D7P (dermatología) y BreastMNIST (ultrasonido) en subconjuntos que contienen o no contienen un artefacto (reglas o anotaciones respectivamente). Los modelos fueron entrenados con imágenes libres de artefactos, y las imágenes con artefactos se utilizaron como conjuntos de prueba OOD. Para cada imagen OOD, creamos un contrafactual eliminando manualmente el artefacto mediante procesamiento de imágenes, para evaluar el impacto del artefacto en las predicciones del modelo. Mostramos que los artefactos OOD pueden aumentar la confianza softmax de un modelo en sus predicciones, debido a correlaciones en los datos de entrenamiento entre otros factores. Esto contradice la suposición común de que los artefactos OOD deberían llevar a salidas más inciertas, una suposición en la que se basan la mayoría de los métodos basados en confianza. Usamos esto para explicar por qué los métodos basados en características (p. ej. puntaje de Mahalanobis) suelen tener un mejor rendimiento en la detección OOD que los métodos basados en confianza (p. ej. MCP). Sin embargo, también mostramos que los métodos basados en características suelen desempeñarse peor al distinguir entre entradas que conducen a predicciones correctas e incorrectas (tanto para datos OOD como ID). A partir de estos conocimientos, argumentamos que se debe utilizar una combinación de métodos basados en características y en confianza dentro de las pipelines de DNN para mitigar sus respectivas debilidades. El código de este proyecto y los benchmarks OOD están disponibles en: https: //github. com/HarryAnthony/EvaluatingOODdetection.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo