What question did this study set out to answer?

Cette recherche vise à améliorer la précision de la classification des maladies oculaires en utilisant un modèle novateur basé sur un transformateur.

April 10, 2026Open Access

MaxGRNet : Un transformateur de vision multi-axes avec une généralisation améliorée pour la classification des maladies oculaires utilisant l'IA explicable avec des opérations d'insertion-suppression sur des images du fond d'œil

Read Full Paperexternally

Key Points

Cette recherche vise à améliorer la précision de la classification des maladies oculaires en utilisant un modèle novateur basé sur un transformateur.
Développement d'un transformateur de vision multi-axes (MaxViT) pour la classification des maladies oculaires à partir d'images du fond d'œil.
Incorporation de techniques d'IA explicable pour améliorer la transparence du modèle.
Utilisation de la normalisation de réponse globale et de couches de perceptrons multicouches pour une meilleure extraction des caractéristiques.
Évaluation du modèle à l'aide d'une validation croisée en cinq volets sur un ensemble de données disponible publiquement.
Application de méthodes de prétraitement rigoureuses pour améliorer la cohérence des données.
Obtention d'une précision de test macro-moyenne de 96,75 %, d'une précision de 96,70 % et d'un rappel de 96,80 %.
Surpassement des CNN conventionnels et d'autres variantes de transformateurs dans les tâches de classification des maladies oculaires.
Des tests t statistiques ont confirmé la signification des résultats.

Abstract

Les maladies oculaires, y compris la rétinopathie diabétique (DR), le glaucome et les cataractes, représentent une préoccupation majeure pour la santé mondiale et peuvent entraîner une déficience visuelle sévère ou la cécité si elles ne sont pas identifiées en temps opportun. Cette étude propose un cadre novateur de classification des maladies oculaires basé sur un transformateur de vision multi-axes (MaxViT) appliqué à des images du fond d'œil en couleur avec des techniques d'intelligence artificielle explicable (XAI) pour améliorer la transparence du modèle. L'architecture proposée intègre des mécanismes d'attention basés sur les transformateurs avec des couches de perceptrons multicouches (MLP) basées sur la normalisation de réponse globale (GRN) pour capturer efficacement des relations spatiales et contextuelles complexes au sein des images du fond d'œil. Le modèle a été évalué sur un ensemble de données de classification des maladies oculaires disponible publiquement en utilisant une stratégie de validation croisée en cinq volets pour évaluer sa robustesse et sa généralisation. Les résultats expérimentaux montrent que l'approche proposée surpasse constamment les réseaux de neurones convolutionnels (CNN) conventionnels et les variantes de transformateur de vision (ViT), y compris ResNet50, Swin-T, MaxViT-T et ViT-B16. Le modèle a atteint des valeurs de précision, de rappel et d'exactitude test macro-moyennées de 96,75 %, 96,70 % et 96,80 %, respectivement, les tests statistiques appariés confirmant que ces améliorations étaient significativement significatives. Des techniques de prétraitement rigoureuses ont été employées pour améliorer la cohérence des données, et des explications visuelles basées sur XAI ont fourni des aperçus du processus de décision du modèle, soutenant l'interprétabilité dans l'analyse des images ophthalmiques. Dans l'ensemble, le cadre basé sur MaxViT proposé est robuste et réalisable sur le plan computationnel pour des approches d'évaluation orientées recherche pour la classification automatisée des images du fond d'œil, soulignant le potentiel des architectures avancées de transformateurs pour les futures applications de soutien à la décision et de recherche en ophtalmologie.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Md Mehedi Hasan Santo

Fuyad Hasan Bhoyan

University of Liberal Arts Bangladesh

Fuad Ibne Jashim Farhad

Queensland University of Technology

Journals

PLoS ONE

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MaxGRNet : Un transformateur de vision multi-axes avec une généralisation améliorée pour la classification des maladies oculaires utilisant l'IA explicable avec des opérations d'insertion-suppression sur des images du fond d'œil

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Also consider