Key points are not available for this paper at this time.
Les modèles de langage à grande échelle (LLMs) ont émergé comme de puissants candidats pour informer les processus de décision clinique. Bien que ces modèles jouent un rôle de plus en plus important dans le façonnement du paysage numérique, deux préoccupations croissantes émergent dans les applications de santé : 1) dans quelle mesure les LLMs présentent-ils un biais social basé sur les attributs protégés des patients (comme la race), et 2) comment les choix de conception (comme la conception de l'architecture et les stratégies de sollicitation) influencent-ils les biais observés ? Pour répondre à ces questions de manière rigoureuse, nous avons évalué huit LLMs populaires à travers trois ensembles de données de questions-réponses (QA) utilisant des vignettes cliniques (descriptions de patients) standardisées pour les évaluations de biais. Nous employons des stratégies de red teaming pour analyser comment les données démographiques affectent les sorties des LLMs, en comparant à la fois des modèles à usage général et des modèles spécifiquement formés. Nos expériences approfondies révèlent diverses disparités (certaines significatives) entre les groupes protégés. Nous observons également plusieurs schémas contre-intuitifs, tels que des modèles plus grands ne étant pas nécessairement moins biaisés et des modèles ajustés sur des données médicales ne étant pas nécessairement meilleurs que les modèles à usage général. De plus, notre étude démontre l'impact de la conception des sollicitations sur les schémas de biais et montre que des formulations spécifiques peuvent influencer les schémas de biais, et des approches de type réflexion (comme la Chaîne de Pensée) peuvent réduire efficacement les résultats biaisés. Conformément à des études antérieures, nous appelons à des évaluations supplémentaires, une surveillance et une amélioration des LLMs utilisés dans les applications de soutien à la décision clinique.
Poulain et al. (Mar,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: