Key points are not available for this paper at this time.
एक लंबे वीडियो में क्षणों को प्राकृतिक भाषा प्रश्नों के माध्यम से स्थानीयकृत करना भाषा और वीडियो समझ के चौराहे पर एक नई और चुनौतीपूर्ण कार्य है। हालाँकि प्राकृतिक भाषा के साथ क्षण स्थानीयकरण अन्य भाषा और दृष्टि कार्यों के समान है जैसे छवियों में प्राकृतिक भाषा वस्तु पुनर्प्राप्ति, क्षण स्थानीयकरण पाठ में अस्थायी निर्भरताओं और तर्क करने का एक रोचक अवसर प्रदान करता है।
Hendricks et al. (Mon,) ने इस प्रश्न का अध्ययन किया।