What question did this study set out to answer?

उद्देश्य यह है कि PPO एल्गोरिदम की प्रभावशीलता को डायनेमिक ट्रेडिंग परिदृश्यों में खोजा जाए, वित्तीय बाजार की चुनौतियों को संबोधित करते हुए।

March 16, 2026

डीप रीइन्फोर्समेंट लर्निंग पर PPO के साथ डायनेमिक ट्रेडिंग: चुनौतियाँ और भविष्य की दिशा

Key Points

उद्देश्य यह है कि PPO एल्गोरिदम की प्रभावशीलता को डायनेमिक ट्रेडिंग परिदृश्यों में खोजा जाए, वित्तीय बाजार की चुनौतियों को संबोधित करते हुए।
PPO का बेंचमार्किंग करने के लिए एक अनुकूल नीति के साथ एक अनुकरणीकृत वातावरण का उपयोग किया गया
निरंतर क्रिया स्थान की सीमा और रिस्केलिंग के प्रभावों की जांच की गई
डॉ. जोंस इंडस्ट्रियल एवरेज डेटा का उपयोग करके अनुभवात्मक परीक्षण किए गए
क्रिया स्थान को क्लिप करने से तेजी से इन-सैंपल समागम हुआ
बिना पूर्वाग्रह के समागम के लिए क्रियाओं का रिस्केलिंग महत्वपूर्ण था
जब संकेत मजबूत थे और लंबी पूर्वानुमान क्षितिज थे तब PPO का प्रदर्शन बेहतर हुआ

Abstract

मॉडल-फ्री डीप रीइन्फोर्समेंट लर्निंग (DRL) वित्त में अनुक्रमिक निर्णय लेने के लिए एक लचीला ढांचा प्रदान करता है लेकिन वित्तीय बाजारों की यादृच्छिक, गैर-स्थिर प्रकृति से इसे अनूठी चुनौतियों का सामना करना पड़ता है। हम समय-परिवर्तनशील अल्फा और मूल्य प्रभाव के साथ डायनेमिक ट्रेडिंग के लिए प्रॉक्सिमल पॉलिसी ऑप्टिमाइजेशन (PPO) एल्गोरिदम का विश्लेषण करते हैं। क्लोज्ड-फॉर्म ऑप्टिमल पॉलिसी के साथ एक अनुकरणीकृत वातावरण का उपयोग करते हुए, हम PPO की दक्षता और सटीकता का माप करते हैं। हम यह प्रदर्शित करते हैं कि निरंतर क्रिया स्थान की सीमा और रिस्केलिंग करने के तरीके DRL एजेंट के प्रशिक्षण और प्रदर्शन पर महत्वपूर्ण प्रभाव डालते हैं। हमने पाया कि क्रिया स्थान को क्लिप करने से इन-सैंपल समागम तेजी से होता है, और संभावित ट्रेडों के वास्तविक दायरे से मेल खाने के लिए क्रियाओं का रिस्केलिंग बिना पूर्वाग्रह के सर्वोत्तम समाधान के लिए आवश्यक है। डॉ जोंस इंडस्ट्रियल एवरेज डेटा पर बूटस्ट्रैप अल्फास के साथ अनुभवात्मक परीक्षणों में, हमने दिखाया कि जब संकेत मजबूत होते हैं और पूर्वानुमान कई क्षितिजों में फैले होते हैं तब PPO का प्रदर्शन बेहतर होता है। हमारे निष्कर्षों ने यह महत्वपूर्णता बताई है कि DRL को ट्रेडिंग में लागू करने के समय विशेष क्षेत्रीय अनुकूलन, विशेष रूप से क्रिया स्थान इंजीनियरिंग और सूचना युक्त राज्य डिजाइन पर ध्यान देना आवश्यक है।

Bookmark

डीप रीइन्फोर्समेंट लर्निंग पर PPO के साथ डायनेमिक ट्रेडिंग: चुनौतियाँ और भविष्य की दिशा

Key Points

Abstract

Cite This Study