Key points are not available for this paper at this time.
यह पत्र एक अभिनव डेटा सेट के साथ प्रयोगों की एक श्रृंखला पर रिपोर्ट प्रस्तुत करता है जो यह मूल्यांकन करता है कि बड़े भाषा मॉडल (LLMs) छोटे उत्तर प्रश्नों के खुले पाठ उत्तरों को कितनी अच्छी तरह मार्क (अर्थात ग्रेड) कर सकते हैं। विशेष रूप से, हम यह जांचते हैं कि विभिन्न GPT संस्करणों और प्राम्प्ट इंजीनियरिंग रणनीतियों के संयोजन वास्तविक छात्रों के उत्तरों को विभिन्न विषय क्षेत्रों (विज्ञान और इतिहास) और ग्रेड-स्तरों (5-16 वर्ष तक) में कितनी अच्छी तरह मार्क करते हैं, एक नए, पहले कभी न उपयोग किए गए डेटा सेट के उपयोग करके जो Carousel से है, एक क्विज़िंग प्लेटफार्म। हमने पाया कि GPT-4, बुनियादी फ्यू-शॉट प्रॉम्प्टिंग के साथ अच्छा प्रदर्शन कर रहा था (Kappa, 0.70) और, महत्वपूर्ण रूप से, मानव स्तर के प्रदर्शन (0.75) के बहुत करीब था। यह शोध पूर्व निष्कर्षों पर आधारित है कि GPT-4 छोटे उत्तर पाठ समझ प्रश्नों को विशेषज्ञ मानव रेटर्स के प्रदर्शन स्तर के बहुत करीब विश्वसनीय रूप से स्कोर कर सकता है। विभिन्न विषयों और ग्रेड स्तरों के बीच मानव स्तर के प्रदर्शन के निकटता संकेत देती है कि LLMs K-12 शिक्षा में कम-जोखिम मूल्यांकन कार्यों का समर्थन करने के लिए एक मूल्यवान उपकरण हो सकते हैं और वास्तविक दुनिया में शिक्षा वितरण के लिए महत्वपूर्ण निहितार्थ हैं।
Henkel एट अल। (सन,) ने इस प्रश्न का अध्ययन किया।