Key points are not available for this paper at this time.
كانت مهام تقسيم المرجعية التقليدية تركز بشكل أساسي على المشاهد المرئية الصامتة، متجاهلة الدور الأساسي للإدراك المتعدد الحواس والتفاعل في التجارب البشرية. في هذا العمل، نقدم مهمة جديدة تُسمى تقسيم الإشارة السمعية البصرية (Ref-AVS)، والتي تسعى إلى تقسيم الكائنات داخل المجال المرئي استنادًا إلى تعبيرات تحتوي على إشارات متعددة الحواس. تُعبر مثل هذه التعبيرات بأشكال لغة طبيعية ولكنها غنية بالإشارات المتعددة الحواس، بما في ذلك الأوصاف السمعية والمرئية. لتسهيل هذا البحث، قمنا ببناء أول معيار لـ Ref-AVS، الذي يوفر تعليقات على مستوى البكسل للكائنات الموصوفة في تعبيرات الإشارات المتعددة الحواس المقابلة. لمواجهة مهمة Ref-AVS، نقترح طريقة جديدة تستفيد بشكل كافٍ من الإشارات المتعددة الحواس لتقديم إرشادات دقيقة للتقسيم. أخيرًا، نجري تجارب كمية ونوعية على ثلاثة مجموعات اختبار لمقارنة نهجنا مع الطرق الموجودة من المهام ذات الصلة. تظهر النتائج فعالية طريقتنا، مشددةً على قدرتها على تقسيم الكائنات بدقة باستخدام تعبيرات الإشارات المتعددة الحواس. مجموعة البيانات متاحة على https://gewu-lab.github.io/Ref-AVS
درس Wang وآخرون (Mon,) هذا السؤال.