Key points are not available for this paper at this time.
हाल के वर्षों में गहन न्यूरल नेटवर्क (DNN) सीखने के माध्यम से NLP-आधारित कोड समझ में शानदार प्रगति देखी गई है, विशेष रूप से बड़े भाषा मॉडल (LLMs) में। जबकि LLMs का मूल उपयोग कोड जनरेशन पर केंद्रित है, इसे कोड समानता, लेखक पहचान, कोड मरम्मत आदि जैसे विशिष्ट कार्यों के लिए विस्तारित करने के प्रयास किए गए हैं। चूंकि डेटा किसी भी मशीन लर्निंग दृष्टिकोण की सफलता में महत्वपूर्ण भूमिका निभाता है, शोधकर्ताओं ने कई बेंचमार्क भी प्रस्तावित किए हैं जो हाथ में एक विशिष्ट कार्य के साथ जुड़े हुए हैं।
जैन एट अल. (सूर्य,) ने इस प्रश्न का अध्ययन किया।