February 18, 2024Open Access

एक प्रम्प्ट सभी को शासन करने के लिए: राय सारांश मूल्यांकन के लिए LLMs

Key Points

Key points are not available for this paper at this time.

Abstract

परंपरागत संदर्भ-आधारित मेट्रिक्स का उपयोग करके राय सारांशों का मूल्यांकन शायद ही कभी एक समग्र मूल्यांकन प्रदान करता है और मानव न्यायों के साथ अपेक्षाकृत कम सहसंबंध दिखाया गया है। हाल की पढ़ाइयाँ बिना संदर्भ मेट्रिक्स के लिए बड़े भाषा मॉडलों (LLMs) का उपयोग करने का सुझाव देती हैं, हालांकि, ये राय सारांश मूल्यांकन के लिए अन्वेषित नहीं हुए हैं। इसके अलावा, सीमित राय सारांश मूल्यांकन डेटासेट प्रगति को बाधित करते हैं। इस समस्या को हल करने के लिए, हम SUMMEVAL-OP डेटासेट जारी कर रहे हैं जो राय सारांशों के मूल्यांकन से संबंधित 7 आयामों को कवर करता है: प्रवाह, सुसंगति, प्रासंगिकता, सत्यनिष्ठा, पहलू कवरेज, भावना स्थिरता, और विशिष्टता। हम Op-I-Prompt एक आयाम-स्वतंत्र प्रम्प्ट और Op-Prompts, राय सारांश मूल्यांकन के लिए एक आयाम-निर्भर प्रम्प्ट सेट का अन्वेषण करते हैं। प्रयोगों से संकेत मिलता है कि Op-I-Prompt राय सारांशों के मूल्यांकन के लिए एक अच्छी वैकल्पिक आती है, जो मानवों के साथ 0.70 का औसत स्पीयरमेन सहसंबंध हासिल करती है, जो सभी पिछले दृष्टिकोणों से बेहतर है। हमारे ज्ञान के अनुसार, हम राय संक्षेपण क्षेत्र में बंद-स्रोत और ओपन-स्रोत मॉडलों पर LLMs को मूल्यांकनकर्त्ता के रूप में अन्वेषण करने वाले पहले हैं।

Read Full Paperexternally

AI से पूछें

Bookmark

View Full Paper