Key points are not available for this paper at this time.
يشير تصنيف مشاهد الاستشعار عن بُعد (RSSC) إلى استنتاج تسميات دلالية استنادًا إلى محتوى مشاهد الاستشعار عن بُعد. مؤخرًا، اعتبر معظم الأعمال الشبكة العصبية التلافيفية المدربة مسبقًا (CNN) كمستخلص للميزات لبناء تمثيل لمشهد للاستشعار عن بُعد. تحتوي التفعيلات في طبقات مختلفة من CNN (المعروفة بالميزات المتوسطة) على معلومات مكانية ودلالية مختلفة. تُظهر الأعمال الأخيرة أن تجميع الميزات المتوسطة في تمثيل لمشهد يمكن أن يحسن بشكل كبير من دقة التصنيف لـ RSSC. ومع ذلك، يتم تجميع الميزات المتوسطة بواسطة بعض طرق ترميز الميزات غير الخاضعة للإشراف (مثل Bag-of-Visual-Words). لم تُبذل الكثير من الجهود لاستكشاف معلومات التسميات الدلالية لتجميع الميزات. في هذه الورقة، من أجل استكشاف معلومات التسميات الدلالية، تم اقتراح شبكة عصبية لتجميع الميزات من البداية إلى النهاية (FACNN) لتعلم تمثيل مشهد لـ RSSC. في FACNN، تم اقتراح وحدة ترميز ميزات تلافيفية خاضعة للإشراف واستراتيجية تجميع تدريجية للاستفادة من معلومات التسميات الدلالية لتجميع الميزات المتوسطة. يدمج FACNN تعلم الميزات، تجميع الميزات، والمصنف في إطار موحد من البداية إلى النهاية للتدريب المشترك. في FACNN، يتم تعلم تمثيل المشهد من خلال مراعاة معلومات التسميات الدلالية، مما يمكن أن يؤدي إلى أداء أفضل لـ RSSC. تُظهر التجارب المكثفة على قواعد بيانات AID وUC-Merged وWHU-RS19 أن FACNN يؤدي بشكل أفضل من العديد من الطرق المتطورة.
درس لو وآخرون (الثلاثاء) هذا السؤال.