Key points are not available for this paper at this time.
यह शोध बड़े भाषा मॉडल (LLMs) का उपयोग करके उत्पन्न पाठों के मूल्यांकन के लिए प्रॉम्प्ट डिज़ाइन की जांच करता है। जबकि LLMs विभिन्न इनपुट के स्कोरिंग के लिए तेजी से उपयोग किए जा रहे हैं, खुले अंत वाले पाठ मूल्यांकन के लिए प्रभावी प्रॉम्प्ट बनाने में मॉडल संवेदनशीलता और पाठ उत्पादन के मूल्यांकन में व्यक्तिपरकता के कारण चुनौतियाँ बनी रहती हैं। हमारा अध्ययन विभिन्न प्रॉम्प्ट संरचनाओं के साथ प्रयोग करता है, आउटपुट निर्देशों के अनुक्रम को परिवर्तित करता है और स्पष्टीकरण के कारण शामिल करता है। हमें यह मिला कि कारणों और स्कोरों के प्रस्तुत करने का क्रम LLMs के स्कोरिंग को महत्वपूर्ण रूप से प्रभावित करता है, जिसमें प्रॉम्प्ट में नियम समझने के विभिन्न स्तर होते हैं। यदि पर्याप्त डेटा उपलब्ध है, तो एक अतिरिक्त अनुकूलन स्कोरिंग संरेखण को बढ़ा सकता है। यह अंतर्दृष्टि LLM-आधारित मूल्यांकन की सटीकता और स्थिरता में सुधार के लिए महत्वपूर्ण है।
चू एट अल। (शुक्रवार,) ने इस प्रश्न का अध्ययन किया।