May 5, 2024Open Access

क्या बड़े भाषा मॉडल ग्रेड प्राप्त कर सकते हैं? K-12 शिक्षा में छोटे उत्तर प्रश्नों को मार्क करने की LLMs की क्षमता का एक अनुभवात्मक अध्ययन

Key Points

Key points are not available for this paper at this time.

Abstract

यह पत्र एक अभिनव डेटा सेट के साथ प्रयोगों की एक श्रृंखला पर रिपोर्ट प्रस्तुत करता है जो यह मूल्यांकन करता है कि बड़े भाषा मॉडल (LLMs) छोटे उत्तर प्रश्नों के खुले पाठ उत्तरों को कितनी अच्छी तरह मार्क (अर्थात ग्रेड) कर सकते हैं। विशेष रूप से, हम यह जांचते हैं कि विभिन्न GPT संस्करणों और प्राम्प्ट इंजीनियरिंग रणनीतियों के संयोजन वास्तविक छात्रों के उत्तरों को विभिन्न विषय क्षेत्रों (विज्ञान और इतिहास) और ग्रेड-स्तरों (5-16 वर्ष तक) में कितनी अच्छी तरह मार्क करते हैं, एक नए, पहले कभी न उपयोग किए गए डेटा सेट के उपयोग करके जो Carousel से है, एक क्विज़िंग प्लेटफार्म। हमने पाया कि GPT-4, बुनियादी फ्यू-शॉट प्रॉम्प्टिंग के साथ अच्छा प्रदर्शन कर रहा था (Kappa, 0.70) और, महत्वपूर्ण रूप से, मानव स्तर के प्रदर्शन (0.75) के बहुत करीब था। यह शोध पूर्व निष्कर्षों पर आधारित है कि GPT-4 छोटे उत्तर पाठ समझ प्रश्नों को विशेषज्ञ मानव रेटर्स के प्रदर्शन स्तर के बहुत करीब विश्वसनीय रूप से स्कोर कर सकता है। विभिन्न विषयों और ग्रेड स्तरों के बीच मानव स्तर के प्रदर्शन के निकटता संकेत देती है कि LLMs K-12 शिक्षा में कम-जोखिम मूल्यांकन कार्यों का समर्थन करने के लिए एक मूल्यवान उपकरण हो सकते हैं और वास्तविक दुनिया में शिक्षा वितरण के लिए महत्वपूर्ण निहितार्थ हैं।

Key Points

Abstract

Cite This Study