Key points are not available for this paper at this time.
Les modèles d'intelligence artificielle (IA) pour la génération automatique de rapports narratifs de radiologie à partir d'images ont le potentiel d'améliorer l'efficacité et de réduire la charge de travail des radiologues. Cependant, l'évaluation de la correction de ces rapports nécessite des métriques capables de saisir les différences cliniquement pertinentes. Dans cette étude, nous examinons l'alignement entre les métriques automatisées et l'évaluation des erreurs par les radiologues lors de la génération de rapports. Nous abordons les limitations des métriques existantes en proposant de nouvelles métriques, RadGraph F1 et RadCliQ, qui démontrent une corrélation plus forte avec les évaluations des radiologues. De plus, nous analysons les modes de défaillance des métriques pour comprendre leurs limites et fournir des orientations pour la sélection et l'interprétation des métriques. Cette étude établit RadGraph F1 et RadCliQ comme des métriques significatives pour orienter les recherches futures sur la génération de rapports de radiologie.
Yu et al. (Jeudi) ont étudié cette question.
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: