Key points are not available for this paper at this time.
परंपरागत संदर्भ-आधारित मेट्रिक्स का उपयोग करके राय सारांशों का मूल्यांकन शायद ही कभी एक समग्र मूल्यांकन प्रदान करता है और मानव न्यायों के साथ अपेक्षाकृत कम सहसंबंध दिखाया गया है। हाल की पढ़ाइयाँ बिना संदर्भ मेट्रिक्स के लिए बड़े भाषा मॉडलों (LLMs) का उपयोग करने का सुझाव देती हैं, हालांकि, ये राय सारांश मूल्यांकन के लिए अन्वेषित नहीं हुए हैं। इसके अलावा, सीमित राय सारांश मूल्यांकन डेटासेट प्रगति को बाधित करते हैं। इस समस्या को हल करने के लिए, हम SUMMEVAL-OP डेटासेट जारी कर रहे हैं जो राय सारांशों के मूल्यांकन से संबंधित 7 आयामों को कवर करता है: प्रवाह, सुसंगति, प्रासंगिकता, सत्यनिष्ठा, पहलू कवरेज, भावना स्थिरता, और विशिष्टता। हम Op-I-Prompt एक आयाम-स्वतंत्र प्रम्प्ट और Op-Prompts, राय सारांश मूल्यांकन के लिए एक आयाम-निर्भर प्रम्प्ट सेट का अन्वेषण करते हैं। प्रयोगों से संकेत मिलता है कि Op-I-Prompt राय सारांशों के मूल्यांकन के लिए एक अच्छी वैकल्पिक आती है, जो मानवों के साथ 0.70 का औसत स्पीयरमेन सहसंबंध हासिल करती है, जो सभी पिछले दृष्टिकोणों से बेहतर है। हमारे ज्ञान के अनुसार, हम राय संक्षेपण क्षेत्र में बंद-स्रोत और ओपन-स्रोत मॉडलों पर LLMs को मूल्यांकनकर्त्ता के रूप में अन्वेषण करने वाले पहले हैं।
Siledar et al. (Sun,) ने इस प्रश्न का अध्ययन किया।