June 13, 2024Open Access

نحو نموذج Geo-Foundation للرؤية واللغة: مسح

Key Points

Key points are not available for this paper at this time.

Abstract

حققت نماذج رؤية-لغة الأساس (VLFMs) تقدمًا ملحوظًا في العديد من المهام متعددة الوسائط، مثل تسميات الصور، واسترجاع النصوص والصور، والإجابة على الأسئلة البصرية، والتأسيس البصري. ومع ذلك، فإن معظم الأساليب تعتمد على التدريب باستخدام مجموعات بيانات الصور العامة، ونقص البيانات الجغرافية يؤدي إلى أداء ضعيف في مراقبة الأرض. تم اقتراح العديد من مجموعات بيانات الصور والنصوص الجغرافية ونماذج VLFMs المدربة عليها مؤخرًا. تهدف هذه الأساليب الجديدة إلى الاستفادة من البيانات الجغرافية متعددة الوسائط على نطاق واسع لبناء نماذج ذكية متعددة الاستخدامات مع قدرات إدراك جغرافية متنوعة، والتي نشير إليها باسم نماذج Geo-Foundation للرؤية واللغة (VLGFMs). تستعرض هذه الورقة VLGFMs بشكل شامل، وتلخص وتحلل التطورات الأخيرة في هذا المجال. على وجه الخصوص، نقدم الخلفية والدوافع وراء ظهور VLGFMs، مع تسليط الضوء على أهميتها البحثية الفريدة. ثم نقوم بتلخيص تقنيات الأساسية التي تم استخدامها في VLGFMs بشكل منهجي، بما في ذلك بناء البيانات، وهياكل النماذج، وتطبيقات المهام الجغرافية متعددة الوسائط المختلفة. أخيرًا، نستنتج برؤى وقضايا ونقاشات بشأن اتجاهات البحث المستقبلية. على حد علمنا، هذه هي أول مراجعة أدبية شاملة لـ VLGFMs. نستمر في تتبع الأعمال ذات الصلة على https://github.com/zytx121/Awesome-VLGFM.

نحو نموذج Geo-Foundation للرؤية واللغة: مسح

Key Points

Abstract

Cite This Study

Also Consider

Also Consider