Key points are not available for this paper at this time.
Une maladie rare est toute maladie qui affecte un très petit pourcentage (1 sur 1 500) de la population. On estime qu'il existe près de 7 000 maladies rares affectant 30 millions de patients rien qu'aux États-Unis. La plupart des patients souffrant de maladies rares subissent de multiples erreurs de diagnostic et peuvent ne jamais être correctement diagnostiqués. Cela est principalement dû à la faible prévalence de la maladie qui entraîne un manque de sensibilisation parmi les prestataires de soins de santé. Des efforts ont été réalisés par des chercheurs en apprentissage automatique pour développer des modèles prédictifs afin d'aider à diagnostiquer les patients en utilisant des ensembles de données de santé, tels que les dossiers de santé électroniques et les réclamations administratives. Plus récemment, des modèles de transformateur ont été appliqués pour prédire des maladies BEHRT, G-BERT et Med-BERT. Cependant, ceux-ci ont été développés spécifiquement pour les dossiers de santé électroniques (DSE) et n'ont pas été conçus pour traiter les défis des maladies rares, tels que le déséquilibre des classes, la capture partielle de données longitudinales et les étiquettes bruitées. En conséquence, ils offrent des performances médiocres dans la prédiction des maladies rares par rapport aux bases de référence. De plus, les ensembles de données DSE sont généralement confinés aux systèmes hospitaliers qui les utilisent et ne capturent pas un échantillon plus large de patients, ce qui limite ainsi la disponibilité d'un nombre suffisant de patients atteints de maladies rares dans l'ensemble de données. Pour relever ces défis, nous avons introduit une extension du modèle BERT adaptée pour le diagnostic des maladies rares appelée RareBERT, qui a été formée sur des ensembles de données de réclamations administratives. RareBERT étend Med-BERT en incluant l'incorporation de contexte et l'incorporation de référence temporelle. De plus, nous avons introduit une nouvelle fonction de perte adaptative pour gérer le déséquilibre de classes. Dans cet article, nous présentons nos expériences sur le diagnostic de l'hypophosphatémie liée à l'X (XLH), une maladie génétique rare. Bien que RareBERT performe significativement mieux que les modèles de référence (79,9 % AUPRC contre 30 % AUPRC pour Med-BERT), grâce à l'architecture de transformateur, il montre également sa robustesse dans la capture partielle de données longitudinales causée par une mauvaise capture des réclamations, avec une baisse de performance de seulement 1,35 % AUPRC, comparée à 12 % pour Med-BERT et 33,0 % pour LSTM et 67,4 % pour les modèles de base basés sur des arbres de renforcement.
Prakash et al. (Mar.) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: