Key points are not available for this paper at this time.
जहाँ मौजूदा वीडियो बेंचमार्क मुख्य रूप से विशेषीकृत डाउनस्ट्रीम कार्यों जैसे रिट्रीवल या प्रश्न-उत्तर (QA) पर विचार करते हैं, वहीं समकालीन मल्टीमॉडल एआई सिस्टम को मानव दृश्य समझ की तरह सभी पहलुओं में सामान्य ज्ञान तर्क करने में सक्षम होना चाहिए। मानव काल-visual धारणा का एक महत्वपूर्ण हिस्सा यह है कि हम "घटनाएँ घटित हो रही हैं" या घटनाओं की पहचान और संज्ञानात्मक मॉडलिंग कर सकें। ऐतिहासिक रूप से, वीडियो बेंचमार्क कार्यों ने इस क्षमता का अप्रत्यक्ष रूप से परीक्षण किया है (जैसे, वीडियो कैप्शनिंग, जिसमें मॉडल दृश्य घटनाओं का वर्णन प्राकृतिक भाषा में करते हैं), लेकिन वे वीडियो घटना समझ को एक कार्य के रूप में नहीं मानते। हाल के काम ने पाठ्य घटना निष्कर्षण के लिए वीडियो समकक्षों की खोज शुरू की है लेकिन इसमें प्रतिस्पर्धी कार्य परिभाषाएँ और विशेष प्रकार की घटनाओं तक सीमित डेटा सेट शामिल हैं। इसलिए, जबकि पिछले 10+ वर्षों में घटना-केंद्रित वीडियो अनुसंधान का एक समृद्ध क्षेत्र है, यह स्पष्ट नहीं है कि वीडियो घटना समझ को कैसे ढाला जाना चाहिए और इसे अध्ययन करने के लिए हमारे पास क्या संसाधन हैं। इस पेपर में, हम 105 वीडियो डेटा सेट का सर्वेक्षण करते हैं जो घटना समझने की क्षमता की आवश्यकता करते हैं, विचार करते हैं कि वे वीडियो में मजबूत घटना समझ के अध्ययन में कैसे योगदान करते हैं, और इस शोध के संदर्भ में प्रस्तावित वीडियो घटना निष्कर्षण कार्यों का मूल्यांकन करते हैं। हम इस सर्वेक्षण से सूचित सुझाव प्रस्तुत करते हैं डेटा सेट की देखभाल और कार्य ढालने के लिए, वीडियो घटनाओं की अद्वितीय कालिक प्रकृति और दृश्य सामग्री में अस्पष्टता पर जोर देते हुए।
सैंडर्स एट अल. (गुरुवार,) ने इस प्रश्न का अध्ययन किया।