Key points are not available for this paper at this time.
تسميات صور الاستشعار عن بُعد (RSIC)، التي تصف صورة استشعار عن بُعد بجملة ذات صلة دلاليًا، كانت تحديًا بين الحقول عبر الوسائط في الرؤية الحاسوبية ومعالجة اللغة الطبيعية. بالنسبة للميزات البصرية المستخرجة من صور الاستشعار عن بُعد، توفر الميزات العالمية العلاقة البصرية الشاملة والكاملة لجميع كلمات الجملة في وقت واحد، بينما يمكن أن تبرز الميزات المحلية التمييز بين هذه الكلمات بشكل فردي. لذلك، ليست الميزات العالمية مهمة فقط لتوليد التسمية، ولكن أيضًا الميزات المحلية لها أهمية في جعل الكلمات أكثر تميّزًا. للاستفادة الكاملة من مزايا كلاً من الميزات العالمية والمحلية، نقترح في هذه المقالة نموذج التسمية العالمية والمحلية المستند إلى الانتباه (GLCM) للحصول على تمثيل ميزات بصرية عالمية ومحلية لتسميات صور الاستشعار عن بُعد. بناءً على نموذج GLCM المقترح، يمكن تصور العلاقة بين جميع الكلمات المنتجة وعلاقة كل كلمة منفصلة والميزات البصرية المحلية الأكثر علاقة بشكل قائم على التشابه، مما يوفر مزيدًا من القابلية للتفسير لتسميات صور الاستشعار عن بُعد. في التجارب الواسعة، يحقق طريقتنا نتائج قابلة للمقارنة في UCM-captions ونتائج متفوقة في Sydney-captions وRSICD، الذي يعد أكبر مجموعة بيانات لتسميات صور الاستشعار عن بُعد.
درس وانغ وآخرون (يوم الثلاثاء) هذا السؤال.