Key points are not available for this paper at this time.
शरीरित एआई, रोबोटिक्स और संवर्धित वास्तविकता के विकास के साथ, "पहले व्यक्ति" दृष्टिकोण से कैद किए गए वीडियो, जिन्हें आत्मकेंद्रित वीडियो के रूप में भी जाना जाता है, कंप्यूटर विजन और रोबोटिक्स समुदायों में रुचि जगा रहे हैं। इसके अतिरिक्त, आत्मकेंद्रित वीडियो के उचित प्रतिनिधित्व को सीखना विभिन्न डाउनस्ट्रीम कार्यों जैसे कार्रवाई पूर्वानुमान और मानव वस्तु अंतःक्रियाओं को लाभ पहुंचा सकता है, जो रोबोटिक योजना के लिए और भी लाभदायक है। हालांकि, वर्तमान कार्य अधिकांशतः आत्मकेंद्रित वीडियो प्रतिनिधित्व के लिए अस्थायी या शीर्षological जानकारी सीखने पर केंद्रित हैं, जबकि गतिविधि पैटर्न, जो लोगों या रोबोटों के व्यवहार की नियमितताओं या इरादों को अधिक स्पष्ट तरीके से प्रकट करते हैं, सावधानी से विचार नहीं किया गया है। इस पेपर में, हम एक नवोन्मेषी ढांचा प्रस्तुत करते हैं, Pattern4Ego, जो क्रॉस-वीडियो गतिविधि पैटर्न का उपयोग करके आत्मकेंद्रित वीडियो के प्रतिनिधित्व को सीखता है। यह ढांचा दो प्रतिनिधि आत्मकेंद्रित वीडियो कार्यों पर अत्याधुनिक प्रदर्शन प्राप्त करता है: दीर्घकालिक कार्रवाई की अपेक्षा और संदर्भ-आधारित पर्यावरण उपलब्धता।
Wu et al. (गुरु,) ने इस प्रश्न का अध्ययन किया।