Key points are not available for this paper at this time.
حققت نماذج رؤية-لغة الأساس (VLFMs) تقدمًا ملحوظًا في العديد من المهام متعددة الوسائط، مثل تسميات الصور، واسترجاع النصوص والصور، والإجابة على الأسئلة البصرية، والتأسيس البصري. ومع ذلك، فإن معظم الأساليب تعتمد على التدريب باستخدام مجموعات بيانات الصور العامة، ونقص البيانات الجغرافية يؤدي إلى أداء ضعيف في مراقبة الأرض. تم اقتراح العديد من مجموعات بيانات الصور والنصوص الجغرافية ونماذج VLFMs المدربة عليها مؤخرًا. تهدف هذه الأساليب الجديدة إلى الاستفادة من البيانات الجغرافية متعددة الوسائط على نطاق واسع لبناء نماذج ذكية متعددة الاستخدامات مع قدرات إدراك جغرافية متنوعة، والتي نشير إليها باسم نماذج Geo-Foundation للرؤية واللغة (VLGFMs). تستعرض هذه الورقة VLGFMs بشكل شامل، وتلخص وتحلل التطورات الأخيرة في هذا المجال. على وجه الخصوص، نقدم الخلفية والدوافع وراء ظهور VLGFMs، مع تسليط الضوء على أهميتها البحثية الفريدة. ثم نقوم بتلخيص تقنيات الأساسية التي تم استخدامها في VLGFMs بشكل منهجي، بما في ذلك بناء البيانات، وهياكل النماذج، وتطبيقات المهام الجغرافية متعددة الوسائط المختلفة. أخيرًا، نستنتج برؤى وقضايا ونقاشات بشأن اتجاهات البحث المستقبلية. على حد علمنا، هذه هي أول مراجعة أدبية شاملة لـ VLGFMs. نستمر في تتبع الأعمال ذات الصلة على https://github.com/zytx121/Awesome-VLGFM.
درس زو وآخرون (Thu) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: