July 5, 2024

वीडियो प्रश्न उत्तर देने के लिए प्रतिनिधित्वात्मक स्थान-काल संबंधी जानकारी का लाभ उठाना

Key Points

Key points are not available for this paper at this time.

Abstract

वीडियो प्रश्न उत्तर देना, जो दिए गए वीडियो से संबंधित प्राकृतिक भाषा के प्रश्न का उत्तर देने का लक्ष्य है, पिछले कुछ वर्षों में आम हो गया है। हालांकि उल्लेखनीय सुधार प्राप्त हुए हैं, फिर भी यह वीडियो सामग्री की अपर्याप्त समझ के चुनौती के प्रति संवेदनशील है। इस उद्देश्य के लिए, हम वीडियो प्रश्न उत्तर देने के लिए एक स्थान-काल प्रतिनिधि दृश्य शोषण नेटवर्क का प्रस्ताव करते हैं, जो केवल प्रतिनिधि दृश्य जानकारी को संक्षेपित करके वीडियो की समझ को बढ़ाता है। प्रतिनिधि वस्तु जानकारी की खोज करने के लिए, हम अनिश्चितता अनुमान के आधार पर अनुकूलनीय ध्यान को आगे बढ़ाते हैं। एक ही समय में, प्रतिनिधि फ्रेम-स्तरीय और क्लिप-स्तरीय दृश्य जानकारी को कैप्चर करने के लिए, हम अपेक्षा-अधिकतमकरण तरीके में बिना शोर वाली जानकारी को कम करने के लिए प्रतिनिधित्वों का एक बहुत अधिक संकुचित सेट संरचना करते हैं। NExT-QA, TGIF-QA, MSRVTT-QA, और MSVD-QA डेटा सेट पर मात्रा और गुणात्मक परिणाम हमारे मॉडल की कई अत्याधुनिक दृष्टिकोणों पर श्रेष्ठता को प्रदर्शित करते हैं।

Bookmark

वीडियो प्रश्न उत्तर देने के लिए प्रतिनिधित्वात्मक स्थान-काल संबंधी जानकारी का लाभ उठाना

Key Points

Abstract

Cite This Study