Key points are not available for this paper at this time.
11の大規模言語モデル(LLM)がカスタムメイドの誤信タスクのバッテリーを使用して評価され、人間の心の理論(ToM)をテストする際の金標準と見なされました。このバッテリーには、40の多様なタスクにわたる640のプロンプトが含まれており、それぞれは誤信シナリオ、密接に一致した3つの真信コントロールシナリオ、およびすべての4つの逆バージョンを含んでいました。単一のタスクを解決するために、モデルは8つのシナリオ全体で16のプロンプトに正しく答える必要がありました。小型かつ古いモデルはタスクを解決できませんでした。GPT-3-davinci-003(2022年11月)およびChatGPT-3.5-turbo(2023年3月)はタスクの20%を解決し、ChatGPT-4(2023年6月)はタスクの75%を解決し、過去の研究で観察された6歳の子供のパフォーマンスと一致しました。これらの発見の潜在的な解釈を探求し、ToMが人間に特有であると以前は考えられていた可能性が、LLMの言語スキルの向上の副産物として自発的に現れた可能性という興味深い可能性を含めて検討します。
ミハウ・コシンスキー(Sat)がこの問題を研究しました。