Key points are not available for this paper at this time.
私たちは、信念について推論する能力に関して質問応答モデルを評価するための新しいデータセットを提案します。私たちのタスクは、子供たちが他者の信念について推論できるかどうかを調べる心の理論実験に触発されています。特に、これらの信念が現実と異なる場合です。私たちは、メモリ拡張を伴う最近の多数の神経モデルを評価しました。すべてが、世界の矛盾する状態を追跡する必要があるタスクで失敗することがわかりました。さらに、テスト時にランダムな文がタスクに導入されると、モデルの精度は顕著に低下します。1
Nematzadehら(Mon、)はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: