التعلم الانتقائي لتدريب فعال من حيث العينة في مهام مكافأة متعددة الوكلاء منخفضة (ملخص موسع) | Synapse