يهدف فهم التعبيرات الإشارية (REC) إلى تحديد موقع الكائن المستهدف الموصوف بواسطة تعبير باللغة الطبيعية. أدت التقدمات الأخيرة في تعلم اللغة والرؤية إلى تحسينات كبيرة في أداء مهام REC. ومع ذلك، فإن تحديد مواقع الكائنات الصغيرة جداً لا يزال تحدياً كبيراً على الرغم من أهميته في التطبيقات الواقعية مثل القيادة الذاتية. لمعالجة هذه المشكلة، نقدم مجموعة بيانات جديدة وطريقة لفهم التعبيرات الإشارية تستهدف الكائنات الصغيرة. أولاً، نقدم مجموعة بيانات فهم التعبيرات الإشارية للأشياء الصغيرة (SOREC)، التي تتكون من 100,000 زوج من التعبيرات الإشارية وصناديق المحيطة المقابلة لكائنات صغيرة في سيناريوهات القيادة. ثانياً، نقترح محول التكبير التدريجي المتكرر (PIZA)، وهو وحدة محول من أجل ضبط فعال للمعلمات تمكن النماذج من التكبير تدريجياً وتحديد مواقع الكائنات الصغيرة. في سلسلة من التجارب، نطبق PIZA على GroundingDINO ونظهر تحسناً كبيراً في الدقة على مجموعة بيانات SOREC. مجموعتنا من البيانات، الأكواد والنماذج المدربة مسبقاً متاحة للجمهور على صفحة المشروع.
درس غوتو وآخرون (سات) هذا السؤال.