What does this research mean for the field?

Advanced Large Language Models, particularly ChatGPT-4, demonstrate Theory of Mind capabilities comparable to six-year-old children, suggesting this ability may spontaneously emerge as a byproduct of improving language skills. Novelty: ClaimNovelty.NOVEL_FINDING. Consensus alignment: ConsensusAlignment.CHALLENGES_CONSENSUS.

February 4, 2023Open Access

理論的心のタスクにおける大規模言語モデルの評価

Key Points

Key points are not available for this paper at this time.

Abstract

11の大規模言語モデル（LLM）がカスタムメイドの誤信タスクのバッテリーを使用して評価され、人間の心の理論（ToM）をテストする際の金標準と見なされました。このバッテリーには、40の多様なタスクにわたる640のプロンプトが含まれており、それぞれは誤信シナリオ、密接に一致した3つの真信コントロールシナリオ、およびすべての4つの逆バージョンを含んでいました。単一のタスクを解決するために、モデルは8つのシナリオ全体で16のプロンプトに正しく答える必要がありました。小型かつ古いモデルはタスクを解決できませんでした。GPT-3-davinci-003（2022年11月）およびChatGPT-3.5-turbo（2023年3月）はタスクの20%を解決し、ChatGPT-4（2023年6月）はタスクの75%を解決し、過去の研究で観察された6歳の子供のパフォーマンスと一致しました。これらの発見の潜在的な解釈を探求し、ToMが人間に特有であると以前は考えられていた可能性が、LLMの言語スキルの向上の副産物として自発的に現れた可能性という興味深い可能性を含めて検討します。

Bookmark

View Full Paper

Bookmark

View Full Paper

理論的心のタスクにおける大規模言語モデルの評価

Key Points

Abstract

Cite This Study