Key points are not available for this paper at this time.
تقدم manipulators الروبوتية اللينة ميزة تشغيلية بسبب هياكلها القابلة للتكيف والتشوه. ومع ذلك، فإن ديناميكياتها غير الخطية بطبيعتها تشكل تحديات كبيرة. تعتمد الطرق التحليلية التقليدية غالبًا على افتراضات مبسطة، بينما يمكن أن تكون التقنيات المعتمدة على التعلم مكلفة حسابيًا وتحدد سياسات التحكم بناءً على البيانات الموجودة. يقدم هذا البحث نهجًا جديدًا للتحكم في الروبوتات اللينة، مستفيدًا من أحدث طرق تدرج السياسات ضمن بيئات تركيبية قابلة للتوازي تم تعلمها من البيانات. نقترح أيضًا بروتوكول استكشاف مساحة الفعل الموجه نحو السلامة من خلال التحديثات المتسلسلة وعشوائية مرجحة. على وجه التحديد، يتم تعلم نموذج ديناميكيات الأمام المتكرر الخاص بنا من خلال إنشاء مجموعة بيانات تدريب من مسيرة عشوائية آمنة جسديًا تعود إلى المتوسط في مساحة الفعل لاستكشاف فضاء الحالة مشاهد جزئيًا. نعرض نهج التعلم المعزز تجاه التحكم في الحلقة المغلقة من خلال طرق الممثل-الناقد الحديثة، والتي تتعلم بكفاءة سلوك عالي الأداء على مدى فترات طويلة. يزيل هذا النهج الحاجة إلى أي معرفة بشأن عمليات / قدرات الروبوت، ويضع الأساس لأداة تقييم شاملة في التحكم في الروبوتات اللينة.
درس بيرديكا وآخرون (Sun) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: