Key points are not available for this paper at this time.
मानव क्रियाएँ आमतौर पर कई सेकंड तक चलती हैं और इनमें विशिष्ट स्थान-काल संरचना होती है। हाल की विधियाँ इस संरचना को पकड़ने और संवेदी न्यूरल नेटवर्क के माध्यम से क्रिया प्रतिनिधित्व सीखने का प्रयास करती हैं। हालाँकि, ऐसी प्रतिनिधित्व आमतौर पर कुछ वीडियो फ्रेम के स्तर पर सीखी जाती हैं, जो क्रियाओं को उनके पूर्ण समयीय विस्तार में मॉडल करने में असफल रहती हैं। इस कार्य में हम दीर्घकालिक समयीय जटिलताओं (LTC) के साथ न्यूरल नेटवर्क का उपयोग करके वीडियो प्रतिनिधित्व सीखते हैं। हम यह प्रदर्शित करते हैं कि बढ़े हुए समयीय विस्तार के साथ LTC-CNN मॉडल कार्य पहचान की सटीकता में सुधार करते हैं। हम विभिन्न निम्न-स्तरीय प्रतिनिधित्वों, जैसे कि वीडियो पिक्सेल के कच्चे मान और ऑप्टिकल फ्लो वेक्टर क्षेत्रों के प्रभाव का भी अध्ययन करते हैं और सटीक कार्य मॉडलों को सीखने के लिए उच्च गुणवत्ता वाले ऑप्टिकल फ्लो आकलन के महत्व को प्रदर्शित करते हैं। हम मानव कार्य पहचान के लिए दो चुनौतीपूर्ण बेंचमार्कों UCF101 (92.7%) और HMDB51 (67.2%) पर सर्वोत्तम परिणाम दर्शाते हैं।
Varol et al. (मंगलवार,) ने इस प्रश्न का अध्ययन किया।