July 6, 2024Open Access

FlowLearn: تقييم نماذج الرؤية واللغة الكبيرة في فهم مخططات التدفق

Key Points

Key points are not available for this paper at this time.

Abstract

تُعتبر مخططات التدفق أدوات رسومية لتمثيل مفاهيم معقدة بتمثيلات بصرية مختصرة. يقدم هذا البحث مجموعة بيانات FlowLearn، وهي مورد مصمم لتعزيز فهم مخططات التدفق. تحتوي FlowLearn على مخططات تدفق علمية معقدة ومخططات تدفق محاكاة. يحتوي الجزء العلمي على 3,858 مخطط تدفق مستمد من الأدبيات العلمية بينما يحتوي الجزء المحاكى على 10,000 مخطط تدفق تم إنشاؤه باستخدام نص قابل للتخصيص. تم إثراء مجموعة البيانات بملحقات لمكونات بصرية، والتعرف الضوئي على الحروف، وتمثيل كود ميرميد، وأزواج أسئلة-إجابات في VQA. على الرغم من القدرات المثبتة لنماذج الرؤية واللغة الكبيرة (LVLMs) في مهام الفهم البصري المتنوعة، إلا أن فعاليتها في فك رموز مخططات التدفق - عنصر حاسم في التواصل العلمي - لم يتم بحثها بدقة بعد. تم تصميم مجموعة اختبار FlowLearn لتقييم أداء LVLMs في فهم مخططات التدفق. تقيّم دراستنا نماذج LVLMs ذات الأداء المتقدم، محددة القيود الحالية ومؤسسة أساسًا لتحسينات مستقبلية في هذا المجال الذي لا يزال نسبياً غير مستكشف. على سبيل المثال، في المهام المتعلقة بمخططات التدفق المحاكاة، حقق GPT-4V أعلى دقة (58%) في عد عدد العقد، بينما سجل كلود أعلى دقة (83%) في مهام OCR. ومن الجدير بالذكر أنه لا يوجد نموذج واحد يتفوق في جميع المهام داخل إطار FlowLearn، مما يبرز فرصًا كبيرة لمزيد من التطوير.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper