شهد تقسيم الصوت والصورة في الإشارة (RAVS) مؤخراً تطورات كبيرة، ومع ذلك لا تزال التحديات قائمة في دمج المعلومات متعددة الأبعاد وفهم المحتوى السمعي والبصري والتفكير فيه بعمق. لتوسيع حدود RAVS وتسهيل البحث المستقبلي في هذا المجال، نقترح تقسيم الصوت والصورة في الإشارة متعددة الأبعاد (OmniAVS)، وهو مجموعة بيانات جديدة تحتوي على 2,104 فيديو و61,095 تعبيراً متعدد الأبعاد للإشارة. يتميز OmniAVS بثلاثة ابتكارات رئيسية: (1) 8 أنواع من التعبيرات متعددة الأبعاد التي تجمع بشكل مرن بين النص، الكلام، الصوت، والإشارات البصرية؛ (2) التركيز على فهم المحتوى الصوتي بحيث يتجاوز الكشف عن وجوده فقط؛ و(3) تضمين التفكير المعقد والمعرفة العالمية في التعبيرات. علاوة على ذلك، نقدم مساعد تقسيم تدريس متعدد الأبعاد (OISA) لمعالجة تحديات التفكير متعدد الأبعاد والفهم الدقيق للمحتوى السمعي والبصري في OmniAVS. يستخدم OISA MLLM لفهم الإشارات المعقدة وأداء تقسيم قائم على التفكير. تظهر التجارب الشاملة أن OISA يتفوق على الطرق الحالية في OmniAVS ويحقق نتائج تنافسية في مهام أخرى ذات صلة.
درس يين وآخرون (الأربعاء) هذا السؤال.