March 24, 2024Open Access

AVSegFormer: وتقسيم الصوتيات والمرئيات باستخدام المحول

Key Points

Key points are not available for this paper at this time.

Abstract

يهدف تقسيم الصوتيات والمرئيات (AVS) إلى تحديد وتقسيم الأشياء المصدرة للأصوات في فيديو محدد، مما يتطلب فهم المشهد على مستوى البيكسل المعتمد على الصوت. لا تستطيع الطرق الحالية معالجة الارتباطات الدقيقة بين الإشارات الصوتية والمرئية في مختلف المواقف بشكل ديناميكي. كما تواجه تحديات في التكيف مع السيناريوهات المعقدة، مثل تغير الصوت، وتعايش عدة أشياء، وأكثر. في هذه الورقة، نقترح AVSegFormer، إطار عمل جديد لتقسيم الصوتيات والمرئيات يستفيد من بنية المحول. يتكون على وجه التحديد من مزيج كثيف للصوتيات والمرئيات، يمكنه ضبط الميزات المرئية المثيرة للاهتمام بشكل ديناميكي، ومفكك للصوتيات والمرئيات بشكل نادر، الذي يفصل المصادر الصوتية ضمنياً ويتطابق تلقائياً مع الميزات المرئية المثلى. يجمع بين كلا العنصرين يوفر تمثيل متعدد الوسائط شرطي ثنائي الاتجاه أكثر قوة، مما يحسن أداء التقسيم في سيناريوهات مختلفة. تظهر التجارب الواسعة أن AVSegFormer يحقق نتائج رائدة في معيار AVS. الكود متاح على https://github.com/vvvb-github/AVSegFormer.

AVSegFormer: وتقسيم الصوتيات والمرئيات باستخدام المحول

Key Points

Abstract

Cite This Study

Also Consider

Also Consider