Key points are not available for this paper at this time.
تتناول التعلم بدون عينات (ZSL) مشكلة التعرف على الفئات غير المرئية من خلال نقل المعرفة الدلالية من الفئات المرئية إلى الفئات غير المرئية. عادةً، لضمان نقل المعرفة المرغوب فيه، يتم اعتماد تضمين مباشر لربط المجالات البصرية والدلالية في ZSL. ومع ذلك، تركز معظم طرق ZSL الحالية على تعلم التضمين من الميزات العالمية الضمنية أو مناطق الصور إلى الفضاء الدلالي. وبالتالي، فإنها تفشل في: 1) استغلال الفوائد المتوقعة للعلاقات الشكلية بين مناطق محلية مختلفة في صورة واحدة، والتي تتماشى مع المعلومات الدلالية و 2) تعلم الميزات العالمية والمحلية بشكل تعاوني لتمثيلات الميزات التمييزية. في هذه المقالة، نقترح شبكة الانتباه المزدوجة المستندة إلى الرسوم البيانية الجديدة (GNDAN) لـ ZSL لمعالجة هذه العيوب. تستخدم GNDAN شبكة انتباه موجهة من المنطقة (RAN) وشبكة انتباه موجهة من الرسم البياني للمنطقة (RGAT) لتعلم تضمين محلي تمييزي بشكل مشترك ودمج السياق العالمي لاستغلال التضمينات العالمية الصريحة تحت توجيه رسم بياني. بشكل محدد، تستخدم RAN انتباهًا مكانيًا ناعمًا لاكتشاف المناطق التمييزية لتوليد التضمينات المحلية. في هذه الأثناء، تستخدم RGAT انتباهًا قائمًا على الخصائص للحصول على ميزات المنطقة المعتمدة على الخصائص، حيث يركز كل سمة على المناطق الأكثر صلة بالصورة. مدفوعة بشبكة الأعصاب الرسومية (GNN)، التي تفيد في تمثيلات العلاقات الهيكلية، تستفيد RGAT بشكل أكبر من شبكة انتباه الرسم البياني لاستغلال العلاقات بين ميزات المنطقة المستندة إلى الخصائص لتمثيلات التضمين العالمي الصريح. استنادًا إلى آلية المعايرة الذاتية، يتم مطابقة التضمين البصري المشترك المكتسب مع التضمين الدلالي لتشكيل التنبؤ النهائي. تثبت التجارب الشاملة على ثلاثة مجموعات بيانات مرجعية أن GNDAN المقترحة تحقق أداءً متفوقًا مقارنةً Methods state-of-the-art. الكود والنماذج المدربة متاحة على https://github.com/shiming-chen/GNDAN.
درس تشين وآخرون (الأربعاء) هذا السؤال.