May 31, 2024Open Access

clembench-2024: 大規模言語モデルをマルチアクションエージェントとして活用するための挑戦的で動的、補完的な多言語ベンチマークとその基盤となる柔軟なフレームワーク

Key Points

Key points are not available for this paper at this time.

Abstract

最近の研究において、大規模言語モデル（LLMs）は特定の能力（一般的な指示のフォロー、戦略的目標指向、言語理解能力）を探る会話ゲームを「自己プレイ」するよう促されることが確立されました。 resulting interactive game play can be automatically scored. 本論文では、このようなゲームプレイ環境を設定するための提案されたフレームワークの1つを取り上げ、その評価手段としての有用性を様々な次元にわたってさらにテストします。我々は、新しい展開に容易に対応できる一方でデータの汚染を避けることを示し、その中で実施されるテストがまだ飽和していないこと（人間のパフォーマンスは最良のモデルのそれよりもはるかに高い）を示し、プロンプト言語がパフォーマンスに与える影響のような追加の質問の調査にも適していることを示します。このアプローチが、適用されたインタラクティブシステムのモデル選択に関する意思決定の良い基盤を形成し、最終的にはシステムとシミュレートされた評価者の閉ループ開発環境の設定に至る可能性があると信じています。

Read Full Paperexternally

AIに質問

Bookmark

View Full Paper