Key points are not available for this paper at this time.
يهدف تقسيم الصوتيات والمرئيات (AVS) إلى تحديد وتقسيم الأشياء المصدرة للأصوات في فيديو محدد، مما يتطلب فهم المشهد على مستوى البيكسل المعتمد على الصوت. لا تستطيع الطرق الحالية معالجة الارتباطات الدقيقة بين الإشارات الصوتية والمرئية في مختلف المواقف بشكل ديناميكي. كما تواجه تحديات في التكيف مع السيناريوهات المعقدة، مثل تغير الصوت، وتعايش عدة أشياء، وأكثر. في هذه الورقة، نقترح AVSegFormer، إطار عمل جديد لتقسيم الصوتيات والمرئيات يستفيد من بنية المحول. يتكون على وجه التحديد من مزيج كثيف للصوتيات والمرئيات، يمكنه ضبط الميزات المرئية المثيرة للاهتمام بشكل ديناميكي، ومفكك للصوتيات والمرئيات بشكل نادر، الذي يفصل المصادر الصوتية ضمنياً ويتطابق تلقائياً مع الميزات المرئية المثلى. يجمع بين كلا العنصرين يوفر تمثيل متعدد الوسائط شرطي ثنائي الاتجاه أكثر قوة، مما يحسن أداء التقسيم في سيناريوهات مختلفة. تظهر التجارب الواسعة أن AVSegFormer يحقق نتائج رائدة في معيار AVS. الكود متاح على https://github.com/vvvb-github/AVSegFormer.
درس قاو وآخرون (Sun،) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: