Key points are not available for this paper at this time.
تفتح المساعدات الجغرافية إمكانيات غير مسبوقة لأداء تطبيقات مراقبة الأرض (EO) من خلال توجيهات بلغة طبيعية. ومع ذلك، تعتمد الوكلاء الحاليون على مهام مبسطة للغاية والاهتمامات القائمة على النماذج، مما يخلق انفصالاً عن السيناريوهات الواقعية. في هذا العمل، نقدم GeoLLM-Engine، وهو بيئة لوكلاء معززين بالأدوات مع مهام معقدة تُنفذ بانتظام من قبل المحللين على منصات الاستشعار عن بعد. نغني بيئتنا بأدوات واجهة برمجة تطبيقات جغرافية، خرائط ديناميكية/واجهات مستخدم، وقواعد بيانات خارجية متعددة الوسائط لقياس كفاءة الوكيل في تفسير تعليمات اللغة الطبيعية المعقدة وصحة أدائه في إكمال المهام. من خلال تخفيف الأعباء المرتبطة عادةً بتحرير معايير القياس البشري، نستفيد من محركنا الضخم المعتمد على 100 عقدة من GPT-4-Turbo، مع توسيع نطاقه لأكثر من نصف مليون مهمة متعددة الأدوات المتنوعة وعبر 1.1 مليون صورة ساتلية. من خلال التحول بعيدًا عن النماذج التقليدية لتسمية الصور المفردة، نستكشف الوكلاء وتقنيات التحفيز المتقدمة ضد التحفيزات ذات الأفق الطويل.
درس سينغ وآخرون (ثلاثاء) هذا السؤال.