本論文では、異なる種類の常識関係に基づく対話システムのターンレベルデータ拡張を実行するタスクの探索に関する初期結果と、生成された合成ターンの自動評価を提供します。提案する方法論は、拡張された知識とゼロショット能力を活用し、指示に従い、文脈情報を理解し、常識的推論能力を活かす大規模言語モデル(LLMs)の活用を行います。このアプローチは、Chain-of-Thought(CoT)のような方法論からインスピレーションを受けており、常識属性に条件付けされた対話ベースのデータ拡張のためのプロンプトベース生成のタスクにより明示的に適用され、生成された対話の自動評価に寄与しています。提案されたアプローチの効果を評価するために、まず、5つの異なる有名な対話データセットから200のランダムに選ばれた部分的対話を抽出し、異なるイベント常識属性に条件付けされた代替応答を生成します。この新しいデータセットは、特に12の異なる特定のATOMIC 10データベース関係まで、文脈に関連する常識知識を生成するLLMsの能力を測定することを可能にします。次に、イベント常識を評価するための微妙なアプローチを提供するACCENT 26メトリックに触発された自動生成データセットの質を検出する評価フレームワークを提案します。しかし、私たちの方法はACCENTの複雑なイベント関係タプル抽出プロセスには従いません。代わりに、各常識属性に対する指示ベースのプロンプトを提案し、最新のLLMsを使用して、前のステップで各拡張ターンを作成する際に使用された元の属性を自動的に検出します。初期結果は、私たちのアプローチが対話システムにおける常識推論と評価のためにLLMsの能力を効果的に活用していることを示唆しています。
Estecha-Garitagoitia et al. (Tue,) はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: