September 5, 2018

تغذية راجعة تعتمد على الانحدار التقطيعي العميق مع مكافأة غامضة لمهام تجميع المثبتات في الثقوب متعددة

Key Points

Key points are not available for this paper at this time.

Abstract

لا يزال إكمال المهام المعقدة لتجميع المثبتات في الثقوب بواسطة الروبوتات تحديًا هائلًا، لأن استراتيجيات التحكم التقليدية تتطلب تحليلًا معقدًا لنموذج الاتصال. في هذه الورقة، يتم صياغة مهمة التجميع كعملية قرار ماركوف، ويتم اقتراح خوارزمية انحدار سياسات حتمية عميقة مدفوعة بالنموذج لإنجاز مهمة التجميع من خلال السياسة المتعلمة دون تحليل حالات الاتصال. في خوارزميتنا، يتم توجيه عملية التعلم بواسطة وحدة تحكم قوة تقليدية بسيطة. بالإضافة إلى ذلك، تم اقتراح استراتيجية استكشاف تغذية راجعة لضمان أن خوارزمينا يمكن أن يستكشف بفعالية سياسة التجميع المثلى ويتجنب الإجراءات المظللة، مما يمكن أن يعالج كفاءة البيانات ويضمن الاستقرار في السيناريوهات التجميعية الواقعية. لتحسين كفاءة التعلم، نستخدم نظام مكافآت غامض لعملية التجميع المعقدة. ثم، تُظهر المحاكاة والتجارب الواقعية لتجميع مزدوج للمثبتات في الثقوب فعالية الخوارزمية المقترحة. تم التحقق من مزايا نظام المكافآت الغامض واستراتيجية استكشاف التغذية الراجعة من خلال مقارنة أداء الحالات المختلفة في المحاكاة والتجارب.

اسأل الذكاء الاصطناعي

Bookmark

اسأل الذكاء الاصطناعي

Bookmark

تغذية راجعة تعتمد على الانحدار التقطيعي العميق مع مكافأة غامضة لمهام تجميع المثبتات في الثقوب متعددة

Key Points

Abstract

Cite This Study