January 1, 2023Open Access

LLM-Eval: बड़े भाषा मॉडलों के साथ ओपन-डोमेन वार्तालापों के लिए एकीकृत बहुआयामी स्वचालित मूल्यांकन

Key Points

Key points are not available for this paper at this time.

Abstract

हम LLM-Eval का प्रस्ताव करते हैं, जो बड़े भाषा मॉडलों (LLMs) के साथ ओपन-डोमेन वार्तालापों के लिए एकीकृत बहुआयामी स्वचालित मूल्यांकन विधि है। मौजूदा मूल्यांकन विधियाँ अक्सर मानव एनोटेशन, सही उत्तर या कई LLM प्रॉम्प्ट पर निर्भर करती हैं, जो महंगी और समय लेने वाली हो सकती हैं। इन समस्याओं का समाधान करने के लिए, हम एक एकल प्रॉम्प्ट-आधारित मूल्यांकन विधि तैयार करते हैं जो एकीकृत मूल्यांकन स्कीमा का लाभ उठाती है ताकि एकल मॉडल कॉल में वार्तालाप गुणवत्ता के कई आयामों को शामिल किया जा सके। हम विभिन्न बेंचमार्क डेटासेट पर LLM-Eval की प्रदर्शन का विस्तार से मूल्यांकन करते हैं, जो इसके प्रभावशीलता, दक्षता, और राज्य-के-कलात्मक मूल्यांकन विधियों की तुलना में अनुकूलता को प्रदर्शित करता है। हमारे विश्लेषण में सटीक मूल्यांकन परिणामों के लिए उपयुक्त LLM और डिकोडिंग रणनीतियों को चुनने के महत्व को भी उजागर किया गया है। LLM-Eval ओपन-डोमेन वार्तालाप सिस्टमों के मूल्यांकन के लिए एक बहुपरकारी और मजबूत समाधान प्रस्तुत करता है, मूल्यांकन प्रक्रिया को सरल बनाते हुए और विविध परिदृश्यों में निरंतर प्रदर्शन प्रदान करता है.

Bookmark

View Full Paper