June 12, 2024Open Access

MMWorld: वीडियो में बहु-विषयक बहु-पहली विश्व मॉडल मूल्यांकन की ओर

Key Points

Key points are not available for this paper at this time.

Abstract

मल्टिमॉडल लैंग्वेज मॉडल्स (MLLMs) "विश्व मॉडल" की उभरती क्षमताओं को प्रदर्शित करते हैं -- जटिल वास्तविक दुनिया की गतिशीलताओं का विश्लेषण और तर्क करना। इन क्षमताओं का आकलन करने के लिए, हम मानते हैं कि वीडियो आदर्श माध्यम हैं, क्योंकि वे वास्तविक दुनिया की गतिशीलताओं और कारणात्मक संबंधों का समृद्ध प्रतिनिधित्व करते हैं। इस उद्देश्य के लिए, हमने MMWorld प्रस्तुत किया है, जो बहु-विषयक, बहु-पहलू वाले मल्टिमॉडल वीडियो समझ के लिए एक नया बेंचमार्क है। MMWorld पिछले वीडियो समझ बेंचमार्कों से दो अनूठे लाभों के साथ अलग है: (1) बहु-विषयक, जो विभिन्न विषयों को कवर करता है जिनके लिए व्यापक समझ के लिए अक्सर क्षेत्र विशेषज्ञता की आवश्यकता होती है; (2) बहु-पहलू तर्क, जिसमें व्याख्या, प्रतिकूल सोच, भविष्यवाणी आदि शामिल हैं। MMWorld में एक मानवीय-संशोधित डेटासेट शामिल है जो पूरे वीडियो के प्रश्नों के साथ MLLMs का मूल्यांकन करता है और एक सिंथेटिक डेटासेट जो एक ही संवेदी अवस्था के भीतर MLLMs का विश्लेषण करता है। संयुक्त रूप से, MMWorld में सात व्यापक विषयों और 69 उपविषयों में फैले 1,910 वीडियो शामिल हैं, जिनमें 6,627 प्रश्न-उत्तर जोड़े और संबंधित कैप्शन्स शामिल हैं। मूल्यांकन में 2 स्वामित्वाधीन और 10 ओपन-सोर्स MLLMs शामिल हैं, जो MMWorld पर संघर्ष करते हैं (जैसे, GPT-4V केवल 52.3% सटीकता के साथ सर्वश्रेष्ठ प्रदर्शन करता है), जो सुधार की बड़ी गुंजाइश दिखाता है। आगे के अपवाद अध्ययनों से अन्य रोचक निष्कर्ष भी सामने आते हैं जैसे कि मॉडलों के कौशल सेट्स का मानवों से भिन्न होना। हम आशा करते हैं कि MMWorld वीडियो में विश्व मॉडल मूल्यांकन की दिशा में एक आवश्यक कदम के रूप में काम करेगा।

Read Full Paperexternally

AI से पूछें

Bookmark

View Full Paper