What question did this study set out to answer?

تحسين توليد تقارير الأشعة من خلال تحسين المحاذاة بين النماذج البصرية واللغوية مع تقليل الأخطاء.

December 22, 2025Open Access

المحاذاة البصرية لنماذج اللغة والرؤية الطبية لتوليد تقارير الأشعة المرتبطة بالعالم الحقيقي

Key Points

تحسين توليد تقارير الأشعة من خلال تحسين المحاذاة بين النماذج البصرية واللغوية مع تقليل الأخطاء.
يستخدم إطار العمل VALOR المقترح التعلم المعزز لمرحلة ما بعد المحاذاة لنماذج اللغة والرؤية.
عملية تدريب على مرحلتين: مكافآت نصية لدقة المصطلحات ومحاذاة الرؤية مع النتائج التشخيصية.
تقييم شامل على عدة معايير لتقييم الأداء.
يحسن VALOR بشكل ملحوظ الدقة الواقعية والتجذير البصري مقارنةً بالطرق الحالية.
أظهرت تقليل الهلاوس أثناء توليد التقارير.

Abstract

توليد تقارير الأشعة (RRG) هو خطوة حاسمة نحو أتمتة سير العمل في الرعاية الصحية، مما يسهل التقييمات الدقيقة للمرضى ويقلل من عبء العمل على المهنيين الطبيين. على الرغم من التقدم الأخير في نماذج اللغة والرؤية الطبية الكبيرة (Med-VLMs)، فإن توليد تقارير الأشعة التي تكون متجذرة بصرياً ودقيقة سريرياً لا يزال يمثل تحدياً كبيراً. غالباً ما تعتمد الأساليب الحالية على مجموعات بيانات معلمة كبيرة للتدريب المسبق، وبيانات تفضيل محددة للمهمة بتكلفة مرتفعة، أو أساليب مبنية على الاسترجاع. ومع ذلك، فإن هذه الاستراتيجيات لا تخفف بشكل كافٍ من الهلاوس الناشئة عن ضعف المحاذاة بين التعبيرات البصرية واللغوية. لمعالجة هذه القيود، نقترح VALOR: المحاذاة البصرية لنماذج اللغة والرؤية الطبية لتوليد تقارير الأشعة المرتبطة بالعالم الحقيقي. تقدم طريقتنا إطار عمل قائم على التعلم المعزز بعد المحاذاة يستخدم تحسين الجوار النسبي الجماعي (GRPO). تستمر عملية التدريب على مرحلتين: (1) تحسين Med-VLM بمكافآت نصية لتشجيع المصطلحات الدقيقة سريرياً، و (2) محاذاة وحدة إسقاط الرؤية للنموذج المتجذر نصياً مع نتائج الأمراض، مما يوجه الانتباه نحو المناطق البصرية الأكثر ارتباطاً بالمهمة التشخيصية. تُظهر التجارب الشاملة على عدة معايير أن VALOR يحسن بشكل كبير الدقة الواقعية والتجذير البصري، محققًا مكاسب كبيرة في الأداء مقارنة بأساليب توليد التقارير الحديثة.

المحاذاة البصرية لنماذج اللغة والرؤية الطبية لتوليد تقارير الأشعة المرتبطة بالعالم الحقيقي

Key Points

Abstract

Cite This Study

Also Consider

Also Consider