August 10, 2024Open Access

क्या LLMs सॉफ़्टवेयर इंजीनियरिंग कलाकृतियों की मैनुअल एनोटेशन के लिए प्रतिस्थापन बन सकते हैं?

Key Points

Key points are not available for this paper at this time.

Abstract

सॉफ़्टवेयर इंजीनियरिंग नवाचारों, जैसे उपकरण और प्रक्रियाएँ, के प्रयोगात्मक मूल्यांकन में अक्सर मानवीय विषय अध्ययन को बहु-आयामी रणनीति के एक तत्व के रूप में शामिल किया जाता है ताकि निष्कर्षों की अधिक सामान्यता प्राप्त की जा सके। हालांकि, हमारे क्षेत्र में मानवीय विषय अध्ययन चुनौतिपूर्ण हैं, क्योंकि उपयुक्त विषयों को खोजने और नियुक्त करने में लागत और कठिनाई होती है, आदर्श रूप से, विभिन्न अनुभव स्तर के पेशेवर प्रोग्रामर। इस बीच, बड़े भाषा मॉडल (LLMs) हाल ही में कई क्षेत्रों में मानव स्तर के प्रदर्शन को प्रदर्शित करने लगे हैं। यह पेपर कोड और कोड-संबंधी कलाकृतियों के मूल्यांकन में महंगे मानव विषयों को बहुत सस्ते LLM प्रश्नों से प्रतिस्थापित करने की संभावना की खोज करता है। हम इस विचार का अध्ययन छह अत्याधुनिक LLMs को पांच डेटासेट से दस एनोटेशन कार्यों पर लागू करके करते हैं, जो पिछले कार्य द्वारा बनाए गए थे, जैसे किसी विधि के प्राकृतिक भाषा सारांश की सटीकता का न्याय करना या यह तय करना कि क्या कोड परिवर्तन एक स्थैतिक विश्लेषण चेतावनी को ठीक करता है। हमारे परिणाम दिखाते हैं कि LLMs के साथ कुछ मानव एनोटेशन प्रयास को प्रतिस्थापित करने से अंतर-रेटर्स की सहमति मानव-रेटर्स की सहमति के बराबर या निकट हो सकती है। मानव विषय अध्ययनों में LLMs का उपयोग कब और कैसे करना है, यह तय करने में मदद करने के लिए, हम मॉडल-मॉडल सहमति को यह भविष्यवाणी करने के लिए प्रस्तावित करते हैं कि क्या कोई कार्य LLMs के लिए पूरी तरह से उपयुक्त है, और मॉडल आत्मविश्वास को सुरक्षित रूप से मानव एनोटेटर्स का प्रतिस्थापन करने के लिए विशिष्ट नमूनों का चयन करने का एक साधन। कुल मिलाकर, हमारा कार्य सॉफ़्टवेयर इंजीनियरिंग में मिश्रित मानव-LLM मूल्यांकन की ओर पहला कदम है।

Read Full Paperexternally

AI से पूछें

Bookmark

View Full Paper