Key points are not available for this paper at this time.
يعتبر التضمين المشترك للصورة والنص المستخرج من الصور الطبية والتقارير السياقية المرتبطة بها الركيزة الأساسية لمعظم مهام الرؤية واللغة (V+L) الطبية، بما في ذلك الإجابة عن الأسئلة البصرية الطبية، واسترجاع النصوص والصور الطبية، وتوليد التقارير السريرية تلقائياً. في هذه الدراسة، نستخدم أربعة نماذج V+L مدربة مسبقاً: LXMERT وVisualBERT وUNIER وPixelBERT لتعلم التمثيل متعدد الوسائط من صور MIMIC-CXR والتقارير المرتبطة بها. تُظهر التقييمات الخارجية باستخدام مجموعة بيانات OpenI أن التضمين المشترك الذي تعلمته نماذج V+L المدربة مسبقًا يُظهر تحسنًا في الأداء بنسبة 1.4% في مهام تصنيف الاكتشافات الصدرية مقارنةً بنموذج CNN+RNN الرائد. تم إجراء دراسات الإزالة لتحليل مساهمة مكونات معينة في النموذج والتحقق من ميزة التضمين المشترك مقارنةً بالتضمين النصي فقط. كما تم تصور خرائط الانتباه لتوضيح آلية الانتباه في نماذج V+L.
درس لي وآخرون (الأربعاء) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: