Key points are not available for this paper at this time.
تقدم هذه الورقة البحثية MedExQA، وهو معيار جديد في الإجابة على الأسئلة الطبية، يهدف إلى تقييم فهم نماذج اللغة الكبيرة (LLMs) للمعرفة الطبية من خلال التفسيرات. من خلال بناء مجموعات بيانات عبر خمسة تخصصات طبية مميزة غير ممثلة بشكل كافٍ في مجموعات البيانات الحالية وإضافة تفسيرات متعددة لكل زوج سؤال-إجابة، نعالج فجوة كبيرة في معايير الإجابة الطبية الحالية وهي غياب التقييمات الشاملة لقدرة نماذج اللغة الكبيرة على توليد تفسيرات طبية دقيقة ومفصلة. تبرز دراستنا أهمية الشرح والقابلية للتفسير في نماذج اللغة الطبية، وتقترح منهجية فعالة لتقييم النماذج تتجاوز دقة التصنيف، وتسليط الضوء على مجال محدد وهو علم أمراض النطق واللغة حيث تفتقر النماذج الحالية بما في ذلك GPT4 لفهم جيد. تظهر نتائجنا أن تقييم التوليد مع وجود تفسيرات متعددة يتوافق بشكل أفضل مع التقييم البشري، مما يبرز فرصة لتقييم فهم آلي أكثر صلابة لنماذج اللغة الكبيرة. لتعزيز تنوع نماذج اللغة الطبية مفتوحة المصدر (التي تعتمد حاليًا بشكل كبير على Llama2)، تقترح هذه الدراسة نموذجًا طبيًا جديدًا، MedPhi-2، المبني على Phi-2 (2.7B). تفوق النموذج على نماذج اللغة الطبية المبنية على Llama2-70B في توليد التفسيرات، مما يدل على فعاليته في المجال الطبي المحدود الموارد. سنشارك مجموعات البيانات الخاصة بالمعيار والنموذج المدرب.
درس كيم وزملاؤه (Mon,) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: