January 1, 2020Open Access

MART: मेमोरी-ऑग्मेंटेड रीकर्सिव ट्रांसफार्मर कोहेरेंट वीडियो पैराग्राफ कैप्शनिंग के लिए

Key Points

Key points are not available for this paper at this time.

Abstract

वीdeos के लिए बहु-वाक्य वर्णन उत्पन्न करना कैप्शनिंग कार्यों में से एक सबसे चुनौतीपूर्ण कार्य है, क्योंकि इसकी उच्च आवश्यकताएँ केवल दृश्य प्रासंगिकता के लिए ही नहीं बल्कि पैराग्राफ में वाक्य के बीच संवादाधारित संगति के लिए भी हैं। इस लक्ष्य की दिशा में, हम मेमोरी-ऑग्मेंटेड रीकर्सिव ट्रांसफार्मर (MART) नामक एक नए दृष्टिकोण का प्रस्ताव करते हैं, जो ट्रांसफार्मर आर्किटेक्चर को बढ़ाने के लिए एक मेमोरी मॉड्यूल का उपयोग करता है। मेमोरी मॉड्यूल वीडियो खंडों और वाक्य के इतिहास से एक अत्यधिक संक्षिप्त मेमोरी स्थिति उत्पन्न करता है ताकि अगले वाक्य की बेहतर भविष्यवाणी में सहायता मिल सके (कोरफेरेंस और पुनरावृत्ति पहलुओं के संदर्भ में), इस प्रकार संगत पैराग्राफ उत्पन्न करने को प्रोत्साहित करता है। विस्तृत प्रयोग, मानव मूल्यांकन, और ActivityNet Captions और YouCookII पर दो लोकप्रिय डेटासेट्स पर गुणात्मक विश्लेषण दर्शाते हैं कि MART बेसलाइन विधियों की तुलना में अधिक संगत और कम पुनरावृत्त पैराग्राफ कैप्शन उत्पन्न करता है, जबकि इनपुट वीडियो इवेंट्स के प्रति प्रासंगिकता बनाए रखता है। 1

Bookmark

View Full Paper