لكي تتعلم الروبوتات من الأشخاص الذين ليس لديهم خبرة في تعلم الآلة، يجب أن تتعلم الروبوتات من التعليمات البشرية الطبيعية. تتطلب معظم تقنيات تعلم الآلة التي تتضمن الشروحات من الأشخاص استخدام مفردات محدودة وتوفير معلومات الحالة، حتى لو لم تكن بديهية. تناقش هذه الورقة وكيلًا برمجيًا تعلم كيفية اللعب بلعبة ماريو بروس باستخدام الشروحات. كانت أهدافنا لتحسين التعلم من الشروحات مزدوجة: (1) تصفية الشروحات إلى نصائح وتحذيرات و(2) تعلم السياسات من الجمل دون معلومات الحالة. استخدمنا تحليل المشاعر لتصفية الشروحات إلى نصائح عن ما يجب فعله وتحذيرات عن ما يجب تجنبه. قمنا بتطوير نصائح مركزة على الكائنات لتمثيل الإجراءات التي ينبغي على الوكيل اتخاذها عند التعامل مع الكائنات. استخدم وكيل التعلم المعزز النصائح المركزة على الكائنات لتعلم السياسات التي تعظم مكافأته. بعد التخفيف من النتائج السلبية الخاطئة، كانت دقة استخدام المشاعر كمرشح حوالي 85%. كانت النصائح المركزة على الكائنات أفضل من حالة عدم وجود نصائح، حيث تعلم الوكيل أين يطبق النصيحة، وكان بإمكان الوكيل التعافي من نصائح معادية. كما وجدنا أنه يجب تصميم طريقة التفاعل لتخفيف العبء الإدراكي على المعلم البشري أو قد تكون النصائح ذات جودة رديئة.
درس كرينينغ وآخرون (مون) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: