June 13, 2024Open Access

ग्राउंडेड इवेंट समझने के लिए वीडियो डेटा सेट्स का सर्वेक्षण

Key Points

Key points are not available for this paper at this time.

Abstract

जहाँ मौजूदा वीडियो बेंचमार्क मुख्य रूप से विशेषीकृत डाउनस्ट्रीम कार्यों जैसे रिट्रीवल या प्रश्न-उत्तर (QA) पर विचार करते हैं, वहीं समकालीन मल्टीमॉडल एआई सिस्टम को मानव दृश्य समझ की तरह सभी पहलुओं में सामान्य ज्ञान तर्क करने में सक्षम होना चाहिए। मानव काल-visual धारणा का एक महत्वपूर्ण हिस्सा यह है कि हम "घटनाएँ घटित हो रही हैं" या घटनाओं की पहचान और संज्ञानात्मक मॉडलिंग कर सकें। ऐतिहासिक रूप से, वीडियो बेंचमार्क कार्यों ने इस क्षमता का अप्रत्यक्ष रूप से परीक्षण किया है (जैसे, वीडियो कैप्शनिंग, जिसमें मॉडल दृश्य घटनाओं का वर्णन प्राकृतिक भाषा में करते हैं), लेकिन वे वीडियो घटना समझ को एक कार्य के रूप में नहीं मानते। हाल के काम ने पाठ्य घटना निष्कर्षण के लिए वीडियो समकक्षों की खोज शुरू की है लेकिन इसमें प्रतिस्पर्धी कार्य परिभाषाएँ और विशेष प्रकार की घटनाओं तक सीमित डेटा सेट शामिल हैं। इसलिए, जबकि पिछले 10+ वर्षों में घटना-केंद्रित वीडियो अनुसंधान का एक समृद्ध क्षेत्र है, यह स्पष्ट नहीं है कि वीडियो घटना समझ को कैसे ढाला जाना चाहिए और इसे अध्ययन करने के लिए हमारे पास क्या संसाधन हैं। इस पेपर में, हम 105 वीडियो डेटा सेट का सर्वेक्षण करते हैं जो घटना समझने की क्षमता की आवश्यकता करते हैं, विचार करते हैं कि वे वीडियो में मजबूत घटना समझ के अध्ययन में कैसे योगदान करते हैं, और इस शोध के संदर्भ में प्रस्तावित वीडियो घटना निष्कर्षण कार्यों का मूल्यांकन करते हैं। हम इस सर्वेक्षण से सूचित सुझाव प्रस्तुत करते हैं डेटा सेट की देखभाल और कार्य ढालने के लिए, वीडियो घटनाओं की अद्वितीय कालिक प्रकृति और दृश्य सामग्री में अस्पष्टता पर जोर देते हुए।

Read Full Paperexternally

AI से पूछें

Bookmark

View Full Paper