Key points are not available for this paper at this time.
神経言語モデルは驚くべき流暢さと一貫性を持ってテキストを生成できますが、生成における事実の正確性を制御することは未解決の研究課題のままです。この神経生成の表面的な流暢さと内容レベルの正確性の間の大きな不一致は、機械生成テキストの事実性を評価する自動メトリクスを模索する新たな研究の流れを促しています。本稿では、事実性評価メトリクスを評価するためのメタ評価フレームワークGO FIGUREを紹介します。異なる三つの要約タスクの診断的事実性データに基づいて事実性メトリクスを評価するための五つの必要条件を提案します。十の事実性メトリクスに対するベンチマーク分析により、我々のメタ評価フレームワークが複数のタイプの事実的一貫性と標準生成メトリクス(QAメトリクスを含む)に拡張可能な堅牢で効率的な評価を提供することが明らかになりました。また、QAメトリクスが一般的に領域を越えた事実性を測定する標準メトリクスよりも改善される一方で、性能は質問の生成方法に大きく依存することも明らかになりました。
Gabriel et al. (Fri,) はこの問題を研究しました。
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: