Key points are not available for this paper at this time.
في هذه الورقة، نقترح تمثيل فيديو تمييزي لاكتشاف الأحداث على مجموعة بيانات فيديو ذات نطاق واسع عندما تكون الموارد المادية محدودة. يركز هذا البحث على الاستفادة الفعالة من الشبكات العصبية التلافيفية (CNNs) لتعزيز اكتشاف الأحداث، حيث يمكن فقط استخراج أوصاف ثابتة بمستوى الإطار بواسطة أدوات CNN الموجودة. تساهم هذه الورقة بمساهمتين في استنتاج تمثيل فيديو CNN. أولاً، بينما كانت طرق التجميع القياسية تتضمن التجميع المتوسط والتجميع الأقصى لجمع الميزات الثابتة بمستوى الإطار، نوضح أن الأداء يمكن أن يتحسن بشكل كبير من خلال الاستفادة من طريقة ترميز مناسبة. ثانياً، نقترح استخدام مجموعة من أوصاف المفاهيم الكامنة كموصِّف للإطار، مما يثري المعلومات البصرية مع الاحتفاظ بتكلفة حسابية معقولة. يؤدي تكامل المساهمتين إلى أداء جديد رائد في اكتشاف الأحداث على أكبر مجموعات بيانات الفيديو. مقارنةً بالمسارات الكثيفة المحسنة، التي تم التعرف عليها كأفضل تمثيل فيديو لاكتشاف الأحداث، يحسن تمثيلنا الجديد متوسط الدقة (mAP) من 27.6% إلى 36.8% لمجموعة بيانات TRECVID MEDTest 14 ومن 34.0% إلى 44.6% لمجموعة بيانات TRECVID MEDTest 13.
درس شياو وآخرون (Mon,) هذا السؤال.