Key points are not available for this paper at this time.
يهدف فهم المشاهد ثلاثية الأبعاد باستخدام المفردات المفتوحة (OV-3D) إلى تحديد مواقع وتصنيف الأجسام الجديدة التي تتجاوز فئات الأجسام المغلقة. ومع ذلك، تركز الأساليب والمعايير الحالية في المقام الأول على مشكلة المفردات المفتوحة ضمن سياق فئات الأجسام، وهو أمر غير كافٍ لتوفير تقييم شامل لمدى فهم النموذج للمشهد ثلاثي الأبعاد. في هذه الورقة، نقدم مهمة أكثر تحديًا تدعى فهم المشاهد ثلاثية الأبعاد باستخدام المفردات المفتوحة المعممة (GOV-3D) لاستكشاف مشكلة المفردات المفتوحة بما يتجاوز فئات الأجسام. تشمل هذه المهمة مجموعة مفتوحة ومتنوعة من المعرفة المعممة، معبرًا عنها باستعلامات لغوية لسمات مفصلة وخاصة بالأجسام. ولهذا الغرض، نساهم بمعيار جديد يُسمى OpenScan، والذي يتكون من سمات الأجسام ثلاثية الأبعاد عبر ثمانية جوانب لغوية تمثيلية، بما في ذلك الإمكانية، الخاصية، المادة، وغيرها. كما نقوم بتقييم أحدث طرق OV-3D على معيار OpenScan الخاص بنا، ونكتشف أن هذه الطرق تواجه صعوبة في فهم المفردات المجردة لمهمة GOV-3D، وهي تحدٍ لا يمكن حله ببساطة عبر توسيع فئات الأجسام أثناء التدريب. نبرز قيود المنهجيات الحالية ونستكشف اتجاهًا واعدًا لتجاوز القصور المحددة. تتوفر البيانات والكود على https://github.com/YoujunZhao/OpenScan
درس Zhao وآخرون (الثلاثاء،) هذا السؤال.