Key points are not available for this paper at this time.
विरल पुरस्कारों के तहत अन्वेषण बहु-एजेंट पुनर्गठन सीखने की समस्याओं के लिए एक प्रमुख चुनौती है। इस मुद्दे का एक संभव समाधान है कि अन्वेषण को तेज करने के लिए अंतर्निहित कार्य संरचनाओं का लाभ उठाया जाए। इस पेपर में, हम एक नवीन अन्वेषण दृष्टिकोण प्रस्तुत करते हैं, जो पुरस्कार फ़ंक्शन पर एक विशेष संरचनात्मक पूर्वाग्रह को अन्वेषण में एन्कोड करता है, इसके लिए विरल-पुरस्कार बहु-एजेंट कार्य। विशेष रूप से, एक नवीन एंट्रोपिक अन्वेषण उद्देश्य प्रस्तावित किया गया है जो संरचनात्मक पूर्वाग्रह को एन्कोड करता है और पुरस्कारों की खोज को तेज करता है। इस उद्देश्य की निचली सीमा को अधिकतम करके, हम एक ऐसे एल्गोरिदम का प्रस्ताव करते हैं जिसका गणनात्मक खर्च मध्यम है, जिसे व्यावहारिक कार्यों पर लागू किया जा सकता है। विरल-पुरस्कार सेटिंग के तहत, हम दर्शाते हैं कि प्रस्तावित एल्गोरिदम कई-पार्टी ईवीआर वातावरण, Google रिसर्च फुटबॉल और StarCraft II मायक्रो प्रबंधन कार्यों में सबसे आधुनिक एल्गोरिदम को महत्वपूर्ण रूप से पीछे छोड़ देता है। हमारी सर्वश्रेष्ठ जानकारी के अनुसार, कुछ कठिन कार्यों (जैसे 27mᵥs₃0m}) जिनमें अपेक्षाकृत अधिक एजेेंट हैं और दुश्मनों को हराने के लिए गैर-तुच्छ रणनीतियों की आवश्यकता होती है, में हमारा तरीका विरल-पुरस्कार सेटिंग के तहत जीतने की रणनीतियों को सीखने वाला पहला है।
Xu et al. (Mon,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: