Key points are not available for this paper at this time.
यदि समाचार पत्रों का राजनीतिक या आर्थिक दिशा के प्रति झुकाव अस्पष्ट है, तो लोकतांत्रिक राय निर्माण को प्रभावित किया जा सकता है। समाचार पत्रों की स्थिति को बेहतर समझने के लिए विभिन्न विधियाँ विकसित की गई हैं। हाल ही में, बड़े भाषा मॉडल (LLM) का आगमन, और विशेष रूप से प्री-ट्रेंडेड LLM चैटबोट जैसे ChatGPT या Gemini, शोधकर्ताओं और नागरिकों की सहायता करने की संभावनाएं रखते हैं। हालांकि, यह जानने के लिए बहुत कम जानकारी है कि LLM मूल्यांकन विश्वसनीय है या नहीं: क्या एकल LLM विशेषज्ञों के मूल्यांकन से सहमत है, और क्या विभिन्न LLMs एक-दूसरे के साथ लगातार उत्तर देते हैं? इस शोध पत्र में, हम विशेष रूप से दूसरे चुनौती को संबोधित करते हैं। हम चार व्यापक रूप से उपयोग किए जाने वाले LLMs की तुलना करते हैं कि समाचार पत्रों की स्थिति का मूल्यांकन कैसे करते हैं, और यह तुलना करते हैं कि क्या उनके उत्तर एक-दूसरे के साथ मिलते हैं। हम यह देखते हैं कि ऐसा नहीं है। एक वैश्विक डेटासेट पर, समाचार पत्रों में लेखों को एकल LLMs द्वारा बेहद भिन्न तरीके से स्थित किया गया है, जो प्रशिक्षण में असंगतता या एल्गोरिदम में अत्यधिक रैंडमनेस का संकेत देता है। इसलिए हम यह सुझाव देते हैं कि किन टूल्स का उपयोग करना है, इस पर निर्णय लेते समय सतर्क रहें, और हम बेहतर प्रशिक्षण और एल्गोरिदम विकास की मांग करते हैं, ताकि इस तरह के महत्वपूर्ण अंतर को पाट सकें जो लोकतंत्र और वैश्विक समाजों के लिए अत्यधिक संवेदनशील विषय है। हम बेंचमार्क मूल्यांकन में सामुदायिक भागीदारी की भी मांग करते हैं, हमारे खुले पहल navai.pro के माध्यम से।
Buscemi इत्यादि (गुरुवार,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: