Key points are not available for this paper at this time.
تظهر نماذج اللغة الكبيرة (LLMs) مجموعة متنوعة من القدرات الواعدة في مجال الروبوتات، بما في ذلك التخطيط على المدى الطويل والتفكير البديهي. ومع ذلك، لا يزال أداؤها في التعرف على الأماكن غير مستكشف بشكل كاف. في هذا العمل، نقدم نماذج اللغة متعددة الأشكال (MLLMs) للتعرف على الأماكن البصرية (VPR)، حيث يتعين على الروبوت تحديد موقعه باستخدام الملاحظات البصرية. تصميمنا الرئيسي هو استخدام الاسترجاع القائم على الرؤية لاقتراح عدة مرشحين، ثم الاستفادة من التفكير القائم على اللغة لفحص كل مرشح بعناية من أجل اتخاذ قرار نهائي. على وجه التحديد، نستفيد من الميزات البصرية القوية التي تنتجها نماذج الأساس البصرية المتاحة (VFMs) للحصول على عدة مواقع مرشحة. بعد ذلك، نقوم بتحفيز MLLM لوصف الفروق بين الملاحظة الحالية وكل مرشح بطريقة ثنائية، والتفكير في أفضل مرشح بناءً على هذه الأوصاف. تظهر نتائجنا على ثلاث مجموعات بيانات أن دمج الميزات البصرية العامة من VFMs مع قدرات التفكير لدى MLLMs يوفر بالفعل حلاً فعالاً للتعرف على الأماكن، دون أي تدريب إشرافي محدد لـ VPR. نعتقد أن عملنا يمكن أن يلهم إمكانيات جديدة لتطبيق وتصميم نماذج الأساس، أي، VFMs وLLMs وMLLMs، لتعزيز تحديد المواقع والملاحة للروبوتات المتنقلة.
دراسة ليو وآخرون (الثلاثاء) لهذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: