Key points are not available for this paper at this time.
सॉफ़्टवेयर इंजीनियरिंग नवाचारों, जैसे उपकरण और प्रक्रियाएँ, के प्रयोगात्मक मूल्यांकन में अक्सर मानवीय विषय अध्ययन को बहु-आयामी रणनीति के एक तत्व के रूप में शामिल किया जाता है ताकि निष्कर्षों की अधिक सामान्यता प्राप्त की जा सके। हालांकि, हमारे क्षेत्र में मानवीय विषय अध्ययन चुनौतिपूर्ण हैं, क्योंकि उपयुक्त विषयों को खोजने और नियुक्त करने में लागत और कठिनाई होती है, आदर्श रूप से, विभिन्न अनुभव स्तर के पेशेवर प्रोग्रामर। इस बीच, बड़े भाषा मॉडल (LLMs) हाल ही में कई क्षेत्रों में मानव स्तर के प्रदर्शन को प्रदर्शित करने लगे हैं। यह पेपर कोड और कोड-संबंधी कलाकृतियों के मूल्यांकन में महंगे मानव विषयों को बहुत सस्ते LLM प्रश्नों से प्रतिस्थापित करने की संभावना की खोज करता है। हम इस विचार का अध्ययन छह अत्याधुनिक LLMs को पांच डेटासेट से दस एनोटेशन कार्यों पर लागू करके करते हैं, जो पिछले कार्य द्वारा बनाए गए थे, जैसे किसी विधि के प्राकृतिक भाषा सारांश की सटीकता का न्याय करना या यह तय करना कि क्या कोड परिवर्तन एक स्थैतिक विश्लेषण चेतावनी को ठीक करता है। हमारे परिणाम दिखाते हैं कि LLMs के साथ कुछ मानव एनोटेशन प्रयास को प्रतिस्थापित करने से अंतर-रेटर्स की सहमति मानव-रेटर्स की सहमति के बराबर या निकट हो सकती है। मानव विषय अध्ययनों में LLMs का उपयोग कब और कैसे करना है, यह तय करने में मदद करने के लिए, हम मॉडल-मॉडल सहमति को यह भविष्यवाणी करने के लिए प्रस्तावित करते हैं कि क्या कोई कार्य LLMs के लिए पूरी तरह से उपयुक्त है, और मॉडल आत्मविश्वास को सुरक्षित रूप से मानव एनोटेटर्स का प्रतिस्थापन करने के लिए विशिष्ट नमूनों का चयन करने का एक साधन। कुल मिलाकर, हमारा कार्य सॉफ़्टवेयर इंजीनियरिंग में मिश्रित मानव-LLM मूल्यांकन की ओर पहला कदम है।
Ahmed et al. (Sat,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: