Les décalages de distribution surviennent fréquemment dans les scénarios d'apprentissage automatique du monde réel où l'hypothèse fondamentale selon laquelle les données d'entraînement et de test sont extraites d'échantillons indépendants et identiquement distribués est violée. Dans le cas des données médicales, ces décalages de distribution se produisent souvent lors de l'acquisition des données et constituent un défi majeur pour la robustesse et la fiabilité des systèmes d'intelligence artificielle en pratique clinique. De plus, la quantification de ces décalages sans entraîner un modèle demeure un problème clé non résolu. Cet article propose un cadre méthodologique complet pour évaluer l'impact de tels décalages sur des ensembles de données d'images médicales sous des transformations artificielles simulant des variations d'acquisition, en s'appuyant sur le score Cumulative Spectral Gradient (CSG) comme mesure de la complexité de classification multiclasse induite par les changements de distribution. S'appuyant sur des travaux antérieurs, l'approche proposée est significativement étendue à douze benchmarks d'imagerie médicale 2D de la collection MedMNIST, couvrant des tâches binaires et multiclasses, ainsi que des modalités en niveaux de gris et RGB. Nous évaluons la métrique en analysant sa robustesse face à des décalages de distribution d'inspiration clinique simulés de manière systématique via le flou de mouvement, le bruit additif, les variations de luminosité et de contraste, et les variations de netteté, chacun appliqué à trois niveaux de gravité. Cela aboutit à un benchmark à grande échelle permettant une analyse détaillée de l'influence des caractéristiques des ensembles de données, des types de transformation et de la sévérité des distorsions sur les décalages de distribution. Ainsi, les résultats montrent que bien que la métrique reste généralement stable sous les distorsions de bruit et de mise au point, elle est très sensible aux variations de luminosité et de contraste. Par ailleurs, la méthodologie proposée est comparée au Non-IID score largement utilisé de Cleanlab sur le jeu de données RetinaMNIST utilisant un modèle ResNet-50 préentraîné, comprenant à la fois une analyse par classe et une évaluation de la corrélation entre métriques. Enfin, l'interprétabilité est incorporée via une analyse des cartes d'activation de classe sur BloodMNIST et ses variantes corrompues afin de soutenir et contextualiser les résultats quantitatifs.
Renza et al. (jeu,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: