Key points are not available for this paper at this time.
GPGPU वर्कलोड में उच्च प्रदर्शन समानांतरता को अधिकतम करने और उपलब्ध संसाधनों का पूर्ण उपयोग करने द्वारा प्राप्त होता है। हजारों थ्रेड्स को प्रत्येक कोर में CTA (कोऑपरेटिव थ्रेड एरे) या थ्रेड ब्लॉक्स के इकाइयों में सौंपा जाता है - प्रत्येक थ्रेड ब्लॉक में कई वार्प्स या वेवफ्रंट होते हैं। थ्रेड्स का शेड्यूलिंग समग्र प्रदर्शन पर महत्वपूर्ण प्रभाव डाल सकता है। इस कार्य में, वैकल्पिक थ्रेड ब्लॉक या CTA शेड्यूलिंग की जांच करें; विशेष रूप से, हम थ्रेड ब्लॉक शेड्यूलर और वार्प शेड्यूलर के बीच बातचीत का लाभ उठाते हैं ताकि प्रदर्शन में सुधार हो सके। हम थ्रेड ब्लॉक शेड्यूलिंग के दो पहलुओं का अन्वेषण करते हैं - 1) LCS (लाज़ी CTA शेड्यूलिंग) जो प्रत्येक कोर को आवंटित अधिकतम थ्रेड ब्लॉक्स की संख्या को सीमित करता है, और 2) BCS (ब्लॉक CTA शेड्यूलिंग) जहां लगातार थ्रेड ब्लॉक्स को एक ही कोर में सौंपा जाता है। LCS के लिए, हम एक लालची वार्प शेड्यूलर का लाभ उठाते हैं ताकि केवल भेजी गई निर्देशों की संख्या को मापने के द्वारा थ्रेड ब्लॉक्स की आदर्श संख्या निर्धारित की जा सके, जबकि BCS के लिए, हम एक वैकल्पिक वार्प शेड्यूलर का प्रस्ताव करते हैं जिसे कोर में आवंटित CTAs के “ब्लॉक” के बारे में जानकारी है। LCS के साथ और यह ध्यान में रखते हुए कि अधिकतम CTAs की संख्या प्रदर्शन को अनिवार्य रूप से अधिकतम नहीं करती है, हम मिश्रित समवर्ती कर्नेल निष्पादन का भी प्रस्ताव करते हैं जो एक ही कोर में कई कर्नेल को आवंटित करने में सक्षम बनाता है ताकि संसाधन उपयोगिता अधिकतम हो सके और समग्र प्रदर्शन में सुधार हो सके।
ली एट अल। (शनिवार,) ने इस सवाल का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: