December 16, 2020

مقارنة بين نماذج الرؤية واللغة المدربة مسبقاً لتعلم التمثيل متعدد الوسائط عبر الصور والتقارير الطبية

Key Points

Key points are not available for this paper at this time.

Abstract

يعتبر التضمين المشترك للصورة والنص المستخرج من الصور الطبية والتقارير السياقية المرتبطة بها الركيزة الأساسية لمعظم مهام الرؤية واللغة (V+L) الطبية، بما في ذلك الإجابة عن الأسئلة البصرية الطبية، واسترجاع النصوص والصور الطبية، وتوليد التقارير السريرية تلقائياً. في هذه الدراسة، نستخدم أربعة نماذج V+L مدربة مسبقاً: LXMERT وVisualBERT وUNIER وPixelBERT لتعلم التمثيل متعدد الوسائط من صور MIMIC-CXR والتقارير المرتبطة بها. تُظهر التقييمات الخارجية باستخدام مجموعة بيانات OpenI أن التضمين المشترك الذي تعلمته نماذج V+L المدربة مسبقًا يُظهر تحسنًا في الأداء بنسبة 1.4% في مهام تصنيف الاكتشافات الصدرية مقارنةً بنموذج CNN+RNN الرائد. تم إجراء دراسات الإزالة لتحليل مساهمة مكونات معينة في النموذج والتحقق من ميزة التضمين المشترك مقارنةً بالتضمين النصي فقط. كما تم تصور خرائط الانتباه لتوضيح آلية الانتباه في نماذج V+L.

اسأل الذكاء الاصطناعي

Bookmark