Key points are not available for this paper at this time.
لا يزال إكمال المهام المعقدة لتجميع المثبتات في الثقوب بواسطة الروبوتات تحديًا هائلًا، لأن استراتيجيات التحكم التقليدية تتطلب تحليلًا معقدًا لنموذج الاتصال. في هذه الورقة، يتم صياغة مهمة التجميع كعملية قرار ماركوف، ويتم اقتراح خوارزمية انحدار سياسات حتمية عميقة مدفوعة بالنموذج لإنجاز مهمة التجميع من خلال السياسة المتعلمة دون تحليل حالات الاتصال. في خوارزميتنا، يتم توجيه عملية التعلم بواسطة وحدة تحكم قوة تقليدية بسيطة. بالإضافة إلى ذلك، تم اقتراح استراتيجية استكشاف تغذية راجعة لضمان أن خوارزمينا يمكن أن يستكشف بفعالية سياسة التجميع المثلى ويتجنب الإجراءات المظللة، مما يمكن أن يعالج كفاءة البيانات ويضمن الاستقرار في السيناريوهات التجميعية الواقعية. لتحسين كفاءة التعلم، نستخدم نظام مكافآت غامض لعملية التجميع المعقدة. ثم، تُظهر المحاكاة والتجارب الواقعية لتجميع مزدوج للمثبتات في الثقوب فعالية الخوارزمية المقترحة. تم التحقق من مزايا نظام المكافآت الغامض واستراتيجية استكشاف التغذية الراجعة من خلال مقارنة أداء الحالات المختلفة في المحاكاة والتجارب.
درس شيو وآخرون (الأربعاء) هذا السؤال.