What type of study is this?

This is a Quantitative Study study.

October 9, 2025Open Access

نحو تعبيرات متعددة الأبعاد والتفكير في تقسيم الصوت والصورة في الإشارة

Key Points

تظهر التجارب الشاملة أن OISA يتفوق على الطرق الحالية في التفكير متعدد الأبعاد والتقسيم.
تتضمن مجموعة بيانات OmniAVS 2,104 فيديو و61,095 تعبيراً متعدد الأبعاد للإشارة لفهم محتوى متنوع.
الابتكارات الجديدة في OmniAVS تؤكد على التفكير المعقد والمعرفة العالمية جنباً إلى جنب مع الإشارات السمعية والبصرية القياسية.
يستفيد OISA من MLLM لتسهيل الفهم الأفضل والتقسيم القائم على التفكير للمحتوى السمعي والبصري.

Abstract

شهد تقسيم الصوت والصورة في الإشارة (RAVS) مؤخراً تطورات كبيرة، ومع ذلك لا تزال التحديات قائمة في دمج المعلومات متعددة الأبعاد وفهم المحتوى السمعي والبصري والتفكير فيه بعمق. لتوسيع حدود RAVS وتسهيل البحث المستقبلي في هذا المجال، نقترح تقسيم الصوت والصورة في الإشارة متعددة الأبعاد (OmniAVS)، وهو مجموعة بيانات جديدة تحتوي على 2,104 فيديو و61,095 تعبيراً متعدد الأبعاد للإشارة. يتميز OmniAVS بثلاثة ابتكارات رئيسية: (1) 8 أنواع من التعبيرات متعددة الأبعاد التي تجمع بشكل مرن بين النص، الكلام، الصوت، والإشارات البصرية؛ (2) التركيز على فهم المحتوى الصوتي بحيث يتجاوز الكشف عن وجوده فقط؛ و(3) تضمين التفكير المعقد والمعرفة العالمية في التعبيرات. علاوة على ذلك، نقدم مساعد تقسيم تدريس متعدد الأبعاد (OISA) لمعالجة تحديات التفكير متعدد الأبعاد والفهم الدقيق للمحتوى السمعي والبصري في OmniAVS. يستخدم OISA MLLM لفهم الإشارات المعقدة وأداء تقسيم قائم على التفكير. تظهر التجارب الشاملة أن OISA يتفوق على الطرق الحالية في OmniAVS ويحقق نتائج تنافسية في مهام أخرى ذات صلة.

نحو تعبيرات متعددة الأبعاد والتفكير في تقسيم الصوت والصورة في الإشارة

Key Points

Abstract

Cite This Study