Key points are not available for this paper at this time.
इस पत्र में, हम एक ढांचा प्रस्तावित करते हैं जो वीडियो में क्रिया पहचान के लिए कई विशेषताओं को मिलाता है। विभिन्न विशेषताओं का संयोजन क्रियाओं को पहचानने के लिए महत्वपूर्ण है क्योंकि अक्सर एकल विशेषता आधारित प्रतिनिधित्व छवि के परिवर्तनों (दृष्टिकोण, प्रकाश आदि) और व्यक्तियों के गुण (आकार, उम्र, लिंग आदि) को कैद करने के लिए पर्याप्त नहीं होता है। इसलिए, हम दो प्रकार की विशेषताओं का उपयोग करते हैं: i) स्थानीय समय-स्थानिक (ST) वॉल्यूम (या क्यूबॉइड) का क्वांटाइज्ड शब्दावली, और ii) स्पिन-चित्रों का क्वांटाइज्ड शब्दावली, जिसका उद्देश्य अभिनेता के आकार के विकृतियों को कैद करना है, क्रियाओं को 3डी ऑब्जेक्ट (x, y, t) के रूप में मानकर। इन विशेषताओं को इष्टतम रूप से संयोजित करने के लिए, हम विभिन्न विशेषताओं को एक ग्राफ में नोड्स के रूप में मानते हैं, जहाँ नोड्स के बीच का भारित किनारे संस्थाओं के बीच संबंध की ताकत का प्रतिनिधित्व करता है। ग्राफ को ऐसे k-आव dimensiones में एम्बेड किया जाता है कि समान नोड्स के पास एक-दूसरे के निकट यूरिक्लिडियन निर्देशांक होते हैं। यह इस बाधा को न्यूनतमकरण समस्या में बदलकर प्राप्त किया जाता है जिसका समाधान ग्राफ लैप्लेशियन मैट्रिक्स के ईगेनवेक्टर होते हैं। इस प्रक्रिया को फिडलर एम्बेडिंग कहा जाता है। प्रस्तावित ढांचे की कार्यक्षमता को सार्वजनिक रूप से उपलब्ध डेटा सेट पर परखा गया है। परिणाम दिखाते हैं कि विभिन्न विशेषताओं का संयोजन बेहतर प्रदर्शन प्राप्त करने में मदद करता है, और एम्बेडिंग स्थान से सार्थक विशेषताओं और वीडियो की पुनर्प्राप्ति की अनुमति देता है।
लियू एट अल. (सन,) ने इस प्रश्न का अध्ययन किया।