心の理論タスクにおける大規模言語モデルの評価 | Synapse