Key points are not available for this paper at this time.
أظهرت نماذج الرؤية-اللغة للتصوير عن بعد استخدامات واعدة بفضل تدريبها المسبق الشامل. ومع ذلك، لا يزال استخدامه التقليدي في طرق تصنيف المشاهد بدون ضربات مسبقة يتضمن تقسيم الصور الكبيرة إلى قطع وإجراء توقعات مستقلة، أي الاستدلال الاستقرائي، مما يحد من فعاليتها من خلال تجاهل المعلومات السياقية القيمة. تعالج مقاربتنا هذه المشكلة من خلال الاستفادة من توقعات أولية تعتمد على تحفيز النص وعلاقات الحبيبات من مشفر الصورة لتعزيز القدرات بدون ضربات مسبقة عبر الاستدلال الناقل، وكل ذلك دون الحاجة إلى إشراف وبتكلفة حسابية بسيطة. تظهر التجارب على 10 مجموعات بيانات للتصوير عن بعد مع نماذج الرؤية-اللغة الرائدة تحسينات كبيرة في الدقة مقارنة بتصنيف بدون ضربات مسبقة بالاستدلال الاستقرائي. الشيفرة المصدرية لدينا متاحة للجمهور على Github: https://github.com/elkhouryk/RS-TransCLIP
درس خوري وآخرون (سون) هذا السؤال.