Key points are not available for this paper at this time.
بينما توفر نماذج اللغة والرؤية (VLMs) إمكانات تحويلية لاتخاذ القرارات التكيفية للروبوتات، فإن نشرها العملي يتعرض لعائق شديد نتيجة الفجوة الحرجة بين الكمون الحسابي العالي والمتطلبات الزمنية الصارمة للتحكم في الروبوت. تعمل نماذج VLM التقليدية عادة بترددات استدلال منخفضة (مثل 1–10 هرتز)، وهو ما يفشل في تلبية المطالب عالية التردد (مثل 50–200 هرتز) اللازمة للتلاعب الديناميكي السلس. يؤدي هذا الكمون إلى ثغرات تحكم كبيرة، تتجلى في اهتزاز الروبوت وتأخير التشغيل، مما يؤدي في نهاية المطاف إلى فشل المهام في البيئات غير المنظمة. بناءً على عملية حركة الإنسان، يقدم هذا البحث نموذجًا متعدد الوسائط خفيف الوزن، وهو محول الروبوتات القائم على النقاط الرئيسية (RT-K)، مبنيًا على أساس VLMs. من خلال إجراء استدلال شامل على نقاط المهام الحرجة المحددة في عملية المهام، يقلل النموذج المقترح بشكل كبير من المتطلبات الحسابية مع تحقيق تدريب واستدلال عالي السرعة على وحدات معالجة الرسومات من فئة المستهلك. يتيح هذا النهج للروبوتات تنفيذ المهام بسلاسة وموثوقية، مع تقليل العوائق أمام تدريب ونشر VLMs في تطبيقات الروبوتات. تظهر النتائج التجريبية أن النموذج يحقق دقة عالية، مع خطأ جذر متوسط المربعات (RMSE) بمقدار 1.11 درجة للتحكم في المفاصل ومعدل نجاح بنسبة 92% في مهام تثبيت اللغة وتعميم الحركة، ويقلل من عدد الاستدلالات بحوالي 96% ومن إجمالي وقت الاستدلال بحوالي 98.7%.
درس لي وآخرون (الجمعة) هذا السؤال.