Key points are not available for this paper at this time.
हम LLM-Eval का प्रस्ताव करते हैं, जो बड़े भाषा मॉडलों (LLMs) के साथ ओपन-डोमेन वार्तालापों के लिए एकीकृत बहुआयामी स्वचालित मूल्यांकन विधि है। मौजूदा मूल्यांकन विधियाँ अक्सर मानव एनोटेशन, सही उत्तर या कई LLM प्रॉम्प्ट पर निर्भर करती हैं, जो महंगी और समय लेने वाली हो सकती हैं। इन समस्याओं का समाधान करने के लिए, हम एक एकल प्रॉम्प्ट-आधारित मूल्यांकन विधि तैयार करते हैं जो एकीकृत मूल्यांकन स्कीमा का लाभ उठाती है ताकि एकल मॉडल कॉल में वार्तालाप गुणवत्ता के कई आयामों को शामिल किया जा सके। हम विभिन्न बेंचमार्क डेटासेट पर LLM-Eval की प्रदर्शन का विस्तार से मूल्यांकन करते हैं, जो इसके प्रभावशीलता, दक्षता, और राज्य-के-कलात्मक मूल्यांकन विधियों की तुलना में अनुकूलता को प्रदर्शित करता है। हमारे विश्लेषण में सटीक मूल्यांकन परिणामों के लिए उपयुक्त LLM और डिकोडिंग रणनीतियों को चुनने के महत्व को भी उजागर किया गया है। LLM-Eval ओपन-डोमेन वार्तालाप सिस्टमों के मूल्यांकन के लिए एक बहुपरकारी और मजबूत समाधान प्रस्तुत करता है, मूल्यांकन प्रक्रिया को सरल बनाते हुए और विविध परिदृश्यों में निरंतर प्रदर्शन प्रदान करता है.
लिन एट अल. (सन,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: