Key points are not available for this paper at this time.
تعمل كاشفات الكائنات ذات الإطار الواحد بشكل جيد في بعض الأحيان على مقاطع الفيديو، حتى بدون سياق زمني. ومع ذلك، فإن التحديات مثل الاحتباس، وضبابية الحركة، والوضعيات النادرة للأشياء من الصعب حلها دون الوعي الزمني. وبالتالي، هناك حاجة قوية لتحسين اكتشاف كائنات الفيديو من خلال مراعاة التبعيات الزمنية بعيدة المدى. في هذه الورقة، نقدم تعديلاً خفيف الوزن لكاشف ذو إطار واحد يأخذ في الاعتبار التبعيات الطويلة العشوائية في الفيديو. إنه يحسن دقة كاشف الإطار الواحد بشكل كبير مع عبء حسابي ضئيل. العنصر الرئيسي في نهجنا هو وحدة العلاقة الزمنية الجديدة، التي تعمل على اقتراحات الكائنات، والتي تتعلم التشابهات بين الاقتراحات من إطارات مختلفة وتختار اقتراحات من الماضي و/أو المستقبل لدعم الاقتراحات الحالية. نموذجنا النهائي "السببية"، بدون أي خطوات معالجة ما بعد النتائج غير المتصلة، يعمل بسرعة مشابهة لكاشف الإطار الواحد ويحقق أفضل مستوى لاكتشاف كائنات الفيديو على مجموعة بيانات ImageNet VID.
درس شفيتس وآخرون هذا السؤال.