What question did this study set out to answer?

Cette recherche vise à évaluer comment les décalages de distribution en imagerie médicale affectent la performance de l'intelligence artificielle.

February 2, 2026Open Access

Validation Adverse Basée sur la Complexité pour les Données d'Imagerie Médicale Corrompues

Key Points

Cette recherche vise à évaluer comment les décalages de distribution en imagerie médicale affectent la performance de l'intelligence artificielle.
Développement d'un cadre pour évaluer les décalages de distribution dans les images médicales.
Utilisation du score Cumulative Spectral Gradient pour mesurer la complexité de classification.
Simulation de flou de mouvement, bruit, variations de luminosité et de contraste à différents niveaux de gravité.
Analyse de douze benchmarks d'imagerie médicale 2D de la collection MedMNIST.
La métrique montre une stabilité sous les distorsions de bruit et de mise au point.
Une haute sensibilité est observée avec les variations de luminosité et de contraste.
La comparaison avec le Non-IID score de Cleanlab met en évidence la corrélation et des divergences par classe.

Abstract

Les décalages de distribution surviennent fréquemment dans les scénarios d'apprentissage automatique du monde réel où l'hypothèse fondamentale selon laquelle les données d'entraînement et de test sont extraites d'échantillons indépendants et identiquement distribués est violée. Dans le cas des données médicales, ces décalages de distribution se produisent souvent lors de l'acquisition des données et constituent un défi majeur pour la robustesse et la fiabilité des systèmes d'intelligence artificielle en pratique clinique. De plus, la quantification de ces décalages sans entraîner un modèle demeure un problème clé non résolu. Cet article propose un cadre méthodologique complet pour évaluer l'impact de tels décalages sur des ensembles de données d'images médicales sous des transformations artificielles simulant des variations d'acquisition, en s'appuyant sur le score Cumulative Spectral Gradient (CSG) comme mesure de la complexité de classification multiclasse induite par les changements de distribution. S'appuyant sur des travaux antérieurs, l'approche proposée est significativement étendue à douze benchmarks d'imagerie médicale 2D de la collection MedMNIST, couvrant des tâches binaires et multiclasses, ainsi que des modalités en niveaux de gris et RGB. Nous évaluons la métrique en analysant sa robustesse face à des décalages de distribution d'inspiration clinique simulés de manière systématique via le flou de mouvement, le bruit additif, les variations de luminosité et de contraste, et les variations de netteté, chacun appliqué à trois niveaux de gravité. Cela aboutit à un benchmark à grande échelle permettant une analyse détaillée de l'influence des caractéristiques des ensembles de données, des types de transformation et de la sévérité des distorsions sur les décalages de distribution. Ainsi, les résultats montrent que bien que la métrique reste généralement stable sous les distorsions de bruit et de mise au point, elle est très sensible aux variations de luminosité et de contraste. Par ailleurs, la méthodologie proposée est comparée au Non-IID score largement utilisé de Cleanlab sur le jeu de données RetinaMNIST utilisant un modèle ResNet-50 préentraîné, comprenant à la fois une analyse par classe et une évaluation de la corrélation entre métriques. Enfin, l'interprétabilité est incorporée via une analyse des cartes d'activation de classe sur BloodMNIST et ses variantes corrompues afin de soutenir et contextualiser les résultats quantitatifs.

Validation Adverse Basée sur la Complexité pour les Données d'Imagerie Médicale Corrompues

Key Points

Abstract

Cite This Study

Also Consider

Also Consider