Key points are not available for this paper at this time.
إن دمج التقنيات القائمة على التعلم، خاصةً تعلم التعزيز، في مجال الروبوتات يعد واعدًا لحل المشكلات المعقدة في البيئات غير المنظمة. ومع ذلك، فإن معظم الأساليب الحالية يتم تدريبها في محاكيات معدلة بشكل جيد ثم يتم نشرها على روبوتات حقيقية دون ضبط دقيق عبر الإنترنت. في هذا السياق، يؤثر واقع المحاكاة بشكل كبير على معدل نجاح النشر. بدلاً من ذلك، يوفر التعلم باستخدام بيانات التفاعل في العالم الحقيقي بديلًا واعدًا: ليس فقط أنه يلغي الحاجة إلى محاكي مصقول، بل ينطبق أيضًا على نطاق أوسع من المهام التي يكون فيها النمذجة الدقيقة غير ممكنة. إحدى المشكلات الرئيسية لتعلم التعزيز على الروبوت هي ضمان الأمان، حيث يمكن أن يؤدي الاستكشاف غير المنضبط إلى أضرار كارثية للروبوت أو البيئة. في الواقع، يمكن أن تكون مواصفات السلامة، والتي غالبًا ما تمثل كقيود، معقدة وغير خطية، مما يجعل ضمان السلامة في أنظمة التعلم تحديًا. في هذه الورقة، نوضح كيف يمكننا فرض قيود سلامة معقدة على أنظمة الروبوتات القائمة على التعلم بطريقة مبدئية، من وجهة نظر نظرية وعملية. تستند طريقتنا إلى مفهوم مجموعة القيود، التي تمثل مجموعة تكوينات الروبوت الآمنة. من خلال استغلال تقنيات الهندسة التفاضلية، مثل الفضاء المماس، يمكننا بناء مساحة عمل آمنة، مما يسمح لوكلاء التعلم بالتجريب في إجراءات عشوائية مع ضمان الأمان. نوضح فعالية الطريقة في مهمة هوكي الطائرة الروبوتية في العالم الحقيقي، مُظهرين أن طريقتنا يمكن أن تعالج مهامًا عالية الأبعاد مع قيود معقدة. تتوفر مقاطع فيديو لتجارب الروبوت الحقيقية على موقع المشروع (https://puzeliu.github.io/TRO-ATACOM).
درس ليو وآخرون (السبت) هذا السؤال.