Key points are not available for this paper at this time.
اكتشاف الإجراءات الزمنية (TAD) هو مهمة هامة ومعقدة في فهم الفيديو. تهدف إلى التنبؤ في الوقت نفسه بالتصنيف الدلالي والفترة الزمنية لكل حالة من حالات الإجراء في فيديو غير مُقصّر. بدلاً من التعلم من نقطة إلى نقطة، تتبنى معظم الأساليب الحالية نموذج التعلم القائم على الرأس فقط، حيث يتم تدريب مشفر الفيديو مسبقًا لتصنيف الإجراءات، ويتم تحسين رأس الاكتشاف الموجود فوق المشفر فقط لاكتشاف الإجراءات الزمنية. لم يتم تقييم تأثير التعلم من نقطة إلى نقطة بشكل منهجي. بالإضافة إلى ذلك، تفتقر الدراسات المتعمقة حول التوازن بين الكفاءة والدقة في اكتشاف الإجراءات الزمنية من نقطة إلى نقطة. في هذه الورقة، نقدم دراسة تجريبية لاكتشاف الإجراءات الزمنية من نقطة إلى نقطة. نتحقق من ميزة التعلم من نقطة إلى نقطة مقارنة بتعلم الرأس فقط ونلاحظ تحسنًا في الأداء يصل إلى 11%. بالإضافة إلى ذلك، ندرس تأثيرات اختيارات التصميم المتعددة التي تؤثر على أداء TAD والسرعة، بما في ذلك رأس الاكتشاف، والمشفّر الفيديو، ودقة مقاطع الفيديو المدخلة. بناءً على النتائج، نبني كاشفاً بدقة متوسطة، يحقق أداءً في الطليعة لأساليب التعلم من نقطة إلى نقطة بينما يعمل أسرع بأكثر من 4 مرات. نأمل أن تكون هذه الورقة دليلاً للتعلم من نقطة إلى نقطة وأن تلهم الأبحاث المستقبلية في هذا المجال. الشيفرة والنماذج متاحة على https://github.com/xlliu7/E2E-TAD.
درس ليو وآخرون (الأربعاء) هذا السؤال.