Key points are not available for this paper at this time.
Tool-unterstützte große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten in Anwendungen der Fernerkundung (RS) gezeigt. Bestehende Benchmarks gehen jedoch von Frage-Antwort-Eingabemustern über vordefinierte Bild-Text-Datenpaaren aus. Diese eigenständigen Anweisungen vernachlässigen die Feinheiten realistischer, benutzerzentrierter Aufgaben. Betrachten wir einen geospatialen Analysten: Er zoomt in einen Kartenbereich, er umreißt eine Region, über der Satellitenbilder gesammelt werden sollen, und er fragt prägnant "Erkenne alle Objekte hier". Wo ist `hier`, wenn es nicht explizit in der Bild-Text-Vorlage festgelegt ist, sondern stattdessen durch den Systemzustand impliziert wird, z.B. durch die Positionierung der Live-Karte? Um diese Lücke zu schließen, präsentieren wir GeoLLM-QA, einen Benchmark, der darauf ausgelegt ist, lange Sequenzen von verbalen, visuellen und klickbasierten Aktionen auf einer echten Benutzeroberfläche zu erfassen. Durch eine eingehende Bewertung modernster LLMs über ein vielfältiges Set von 1.000 Aufgaben bieten wir Einblicke in stärkere Agenten für RS-Anwendungen.
Singh et al. (Di,) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: