Key points are not available for this paper at this time.
मल्टिमॉडल लैंग्वेज मॉडल्स (MLLMs) "विश्व मॉडल" की उभरती क्षमताओं को प्रदर्शित करते हैं -- जटिल वास्तविक दुनिया की गतिशीलताओं का विश्लेषण और तर्क करना। इन क्षमताओं का आकलन करने के लिए, हम मानते हैं कि वीडियो आदर्श माध्यम हैं, क्योंकि वे वास्तविक दुनिया की गतिशीलताओं और कारणात्मक संबंधों का समृद्ध प्रतिनिधित्व करते हैं। इस उद्देश्य के लिए, हमने MMWorld प्रस्तुत किया है, जो बहु-विषयक, बहु-पहलू वाले मल्टिमॉडल वीडियो समझ के लिए एक नया बेंचमार्क है। MMWorld पिछले वीडियो समझ बेंचमार्कों से दो अनूठे लाभों के साथ अलग है: (1) बहु-विषयक, जो विभिन्न विषयों को कवर करता है जिनके लिए व्यापक समझ के लिए अक्सर क्षेत्र विशेषज्ञता की आवश्यकता होती है; (2) बहु-पहलू तर्क, जिसमें व्याख्या, प्रतिकूल सोच, भविष्यवाणी आदि शामिल हैं। MMWorld में एक मानवीय-संशोधित डेटासेट शामिल है जो पूरे वीडियो के प्रश्नों के साथ MLLMs का मूल्यांकन करता है और एक सिंथेटिक डेटासेट जो एक ही संवेदी अवस्था के भीतर MLLMs का विश्लेषण करता है। संयुक्त रूप से, MMWorld में सात व्यापक विषयों और 69 उपविषयों में फैले 1,910 वीडियो शामिल हैं, जिनमें 6,627 प्रश्न-उत्तर जोड़े और संबंधित कैप्शन्स शामिल हैं। मूल्यांकन में 2 स्वामित्वाधीन और 10 ओपन-सोर्स MLLMs शामिल हैं, जो MMWorld पर संघर्ष करते हैं (जैसे, GPT-4V केवल 52.3% सटीकता के साथ सर्वश्रेष्ठ प्रदर्शन करता है), जो सुधार की बड़ी गुंजाइश दिखाता है। आगे के अपवाद अध्ययनों से अन्य रोचक निष्कर्ष भी सामने आते हैं जैसे कि मॉडलों के कौशल सेट्स का मानवों से भिन्न होना। हम आशा करते हैं कि MMWorld वीडियो में विश्व मॉडल मूल्यांकन की दिशा में एक आवश्यक कदम के रूप में काम करेगा।
ही एट अल. (बुध,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: