Key points are not available for this paper at this time.
من المتوقع أن يأخذ نموذج موحد لفهم الرؤية واللغة ثلاثية الأبعاد (3D-VL) تمثيلات مشهد متنوعة ويؤدي نطاقًا واسعًا من المهام في مشهد ثلاثي الأبعاد. ومع ذلك، هناك فجوة كبيرة بين الأساليب الموجودة وبين هذا النموذج الموحد، بسبب التطبيق المستقل للتمثيل واستكشاف التدريب متعدد المهام ثلاثي الأبعاد بشكل غير كاف. في هذه الورقة، نقدم PQ3D، وهو نموذج موحد قادر على استخدام استفسارات قابلة للتعديل لمواجهة مجموعة واسعة من مهام 3D-VL، من تقسيم الكائنات على مستوى منخفض إلى التفكير والتخطيط على مستوى عالٍ. تم تحقيق ذلك من خلال ثلاث ابتكارات رئيسية: (1) توحيد تمثيلات المشهد ثلاثي الأبعاد المتنوعة (مثل، الفوكيلات، سحب النقاط، الصور متعددة الزوايا) في فضاء إحداثيات ثلاثي الأبعاد مشترك من خلال تجميع على مستوى القطع، (2) فك تشفير استفسارات قائم على الانتباه لاسترجاع المعلومات المخصصة للمهام الموجهة بواسطة الاستفسارات، و (3) رؤوس إخراج عالمية لمهام مختلفة لدعم التدريب متعدد المهام. تم اختبار PQ3D عبر عشر مجموعات بيانات متنوعة من 3D-VL، وقد أظهر أداءً مثيرًا للإعجاب في هذه المهام، محققًا سجلات جديدة في معظم المعايير. بشكل خاص، يحقق PQ3D تحسينًا في أفضل ما توصلت إليه التكنولوجيا في ScanNet200 بنسبة 1.8% (AP)، وScanRefer بنسبة 5.4% (acc@0.5)، وMulti3DRefer بنسبة 11.7% (F1@0.5)، وScan2Cap بنسبة 13.4% (CIDEr@0.5). علاوة على ذلك، يدعم PQ3D الاستدلال المرن مع أشكال فردية أو مجمعة من تمثيلات 3D المتاحة، على سبيل المثال، إدخال الفوكيل فقط.
قام زو وآخرون (سون،) بدراسة هذا السؤال.