मॉडल-फ्री डीप रीइन्फोर्समेंट लर्निंग (DRL) वित्त में अनुक्रमिक निर्णय लेने के लिए एक लचीला ढांचा प्रदान करता है लेकिन वित्तीय बाजारों की यादृच्छिक, गैर-स्थिर प्रकृति से इसे अनूठी चुनौतियों का सामना करना पड़ता है। हम समय-परिवर्तनशील अल्फा और मूल्य प्रभाव के साथ डायनेमिक ट्रेडिंग के लिए प्रॉक्सिमल पॉलिसी ऑप्टिमाइजेशन (PPO) एल्गोरिदम का विश्लेषण करते हैं। क्लोज्ड-फॉर्म ऑप्टिमल पॉलिसी के साथ एक अनुकरणीकृत वातावरण का उपयोग करते हुए, हम PPO की दक्षता और सटीकता का माप करते हैं। हम यह प्रदर्शित करते हैं कि निरंतर क्रिया स्थान की सीमा और रिस्केलिंग करने के तरीके DRL एजेंट के प्रशिक्षण और प्रदर्शन पर महत्वपूर्ण प्रभाव डालते हैं। हमने पाया कि क्रिया स्थान को क्लिप करने से इन-सैंपल समागम तेजी से होता है, और संभावित ट्रेडों के वास्तविक दायरे से मेल खाने के लिए क्रियाओं का रिस्केलिंग बिना पूर्वाग्रह के सर्वोत्तम समाधान के लिए आवश्यक है। डॉ जोंस इंडस्ट्रियल एवरेज डेटा पर बूटस्ट्रैप अल्फास के साथ अनुभवात्मक परीक्षणों में, हमने दिखाया कि जब संकेत मजबूत होते हैं और पूर्वानुमान कई क्षितिजों में फैले होते हैं तब PPO का प्रदर्शन बेहतर होता है। हमारे निष्कर्षों ने यह महत्वपूर्णता बताई है कि DRL को ट्रेडिंग में लागू करने के समय विशेष क्षेत्रीय अनुकूलन, विशेष रूप से क्रिया स्थान इंजीनियरिंग और सूचना युक्त राज्य डिजाइन पर ध्यान देना आवश्यक है।
Brini et al. (Sat,) ने इस प्रश्न का अध्ययन किया।