Key points are not available for this paper at this time.
大規模言語モデル(LLM)は新しい能力とアプリケーションを解放しました。しかし、人間の好みとの整合性を評価することは依然として重大な課題です。この問題に対処するために、私たちは人間の好みに基づいてLLMを評価するためのオープンプラットフォームであるチャットボットアリーナを紹介します。私たちの方法論は、ペアワイズ比較アプローチを採用し、クラウドソーシングを通じて多様なユーザーベースからの入力を活用します。このプラットフォームは数ヶ月間稼働しており、24万票以上を集めています。この論文では、プラットフォームを説明し、これまでに収集したデータを分析し、モデルの効率的かつ正確な評価およびランキングのために使用している信頼性のある統計的手法を説明します。クラウドソーシングされた質問は十分に多様で識別的であり、クラウドソーシングされた人間の投票は専門家の評価者のものと良い一致を示すことを確認します。これらの分析は、チャットボットアリーナの信頼性の堅固な基盤を確立します。その独自の価値とオープン性により、チャットボットアリーナは著名なLLM開発者や企業によって広く引用されている最も参照されるLLMリーダーボードの1つとして浮上しました。私たちのデモはhttps://chat.lmsys.orgで公開されています。
チャンら(Wed、)はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: