April 25, 2024Open Access

FVIFormer: شبكة المحول للتجميع العالمي-المحلي الموجهة بالتدفق لمعالجة الفيديو

Key Points

Key points are not available for this paper at this time.

Abstract

تم استخدام معالجة الفيديو بشكل مكثف في السنوات الأخيرة. عادةً ما تستخدم الأعمال المعروفة التشابه بين المنطقة المفقودة وميزات محيطها لترميم المحتوى التالف بصريًا بطريقة متعددة المراحل. ومع ذلك، بسبب تعقيد محتوى الفيديو، قد يؤدي ذلك إلى تدمير المعلومات الهيكلية للأجسام داخل الفيديو. بالإضافة إلى ذلك، يمكن أن يزيد وجود الأجسام المتحركة في المناطق التالفة من صعوبة العمل. لمعالجة هذه القضايا، نقترح شبكة محول تجمع عالمي-محلي موجهة بالتدفق لمعالجة الفيديو. أولاً، نستخدم شبكة تكملة التدفق البصري المدربة مسبقًا لإصلاح التدفق البصري المعطل لإطارات الفيديو. ثم، نقترح وحدة ترميم المحتوى التي تستخدم التدفق البصري الكامل كدليل، وتنقل المحتوى العالمي عبر إطارات الفيديو باستخدام محول زمني ومكاني فعال لترميم المناطق التالفة في الفيديو. أخيرًا، نقترح وحدة تصحيح هيكلي لتعزيز تماسك المحتوى حول المناطق المفقودة عبر دمج الميزات المحلية والعالمية المستخرجة. بالإضافة إلى ذلك، وبالنظر إلى كفاءة الإطار العام، قمنا أيضًا بتحسين آلية الانتباه الذاتي لتحسين سرعة التدريب والاختبار عبر الترميز القابل للفصل بالعمق. نتحقق من فعالية طريقتنا على مجموعات بيانات الفيديو YouTube-VOS وDAVIS. تُظهر النتائج التجريبية الموسعة فعالية نهجنا في إكمال حواف محتوى الفيديو الذي خضع لخوارزميات التثبيت.

FVIFormer: شبكة المحول للتجميع العالمي-المحلي الموجهة بالتدفق لمعالجة الفيديو

Key Points

Abstract

Cite This Study