Key points are not available for this paper at this time.
वीdeos के लिए बहु-वाक्य वर्णन उत्पन्न करना कैप्शनिंग कार्यों में से एक सबसे चुनौतीपूर्ण कार्य है, क्योंकि इसकी उच्च आवश्यकताएँ केवल दृश्य प्रासंगिकता के लिए ही नहीं बल्कि पैराग्राफ में वाक्य के बीच संवादाधारित संगति के लिए भी हैं। इस लक्ष्य की दिशा में, हम मेमोरी-ऑग्मेंटेड रीकर्सिव ट्रांसफार्मर (MART) नामक एक नए दृष्टिकोण का प्रस्ताव करते हैं, जो ट्रांसफार्मर आर्किटेक्चर को बढ़ाने के लिए एक मेमोरी मॉड्यूल का उपयोग करता है। मेमोरी मॉड्यूल वीडियो खंडों और वाक्य के इतिहास से एक अत्यधिक संक्षिप्त मेमोरी स्थिति उत्पन्न करता है ताकि अगले वाक्य की बेहतर भविष्यवाणी में सहायता मिल सके (कोरफेरेंस और पुनरावृत्ति पहलुओं के संदर्भ में), इस प्रकार संगत पैराग्राफ उत्पन्न करने को प्रोत्साहित करता है। विस्तृत प्रयोग, मानव मूल्यांकन, और ActivityNet Captions और YouCookII पर दो लोकप्रिय डेटासेट्स पर गुणात्मक विश्लेषण दर्शाते हैं कि MART बेसलाइन विधियों की तुलना में अधिक संगत और कम पुनरावृत्त पैराग्राफ कैप्शन उत्पन्न करता है, जबकि इनपुट वीडियो इवेंट्स के प्रति प्रासंगिकता बनाए रखता है। 1
लेई एट अल। (बुध,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: