توليد تقارير الأشعة (RRG) هو خطوة حاسمة نحو أتمتة سير العمل في الرعاية الصحية، مما يسهل التقييمات الدقيقة للمرضى ويقلل من عبء العمل على المهنيين الطبيين. على الرغم من التقدم الأخير في نماذج اللغة والرؤية الطبية الكبيرة (Med-VLMs)، فإن توليد تقارير الأشعة التي تكون متجذرة بصرياً ودقيقة سريرياً لا يزال يمثل تحدياً كبيراً. غالباً ما تعتمد الأساليب الحالية على مجموعات بيانات معلمة كبيرة للتدريب المسبق، وبيانات تفضيل محددة للمهمة بتكلفة مرتفعة، أو أساليب مبنية على الاسترجاع. ومع ذلك، فإن هذه الاستراتيجيات لا تخفف بشكل كافٍ من الهلاوس الناشئة عن ضعف المحاذاة بين التعبيرات البصرية واللغوية. لمعالجة هذه القيود، نقترح VALOR: المحاذاة البصرية لنماذج اللغة والرؤية الطبية لتوليد تقارير الأشعة المرتبطة بالعالم الحقيقي. تقدم طريقتنا إطار عمل قائم على التعلم المعزز بعد المحاذاة يستخدم تحسين الجوار النسبي الجماعي (GRPO). تستمر عملية التدريب على مرحلتين: (1) تحسين Med-VLM بمكافآت نصية لتشجيع المصطلحات الدقيقة سريرياً، و (2) محاذاة وحدة إسقاط الرؤية للنموذج المتجذر نصياً مع نتائج الأمراض، مما يوجه الانتباه نحو المناطق البصرية الأكثر ارتباطاً بالمهمة التشخيصية. تُظهر التجارب الشاملة على عدة معايير أن VALOR يحسن بشكل كبير الدقة الواقعية والتجذير البصري، محققًا مكاسب كبيرة في الأداء مقارنة بأساليب توليد التقارير الحديثة.
بوس وآخرون (الخميس) درسوا هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: