대형 언어 모델(LLM)은 점점 더 사회 시뮬레이션에 사용되고 있으며, 여기서 에이전트 집단은 인간과 유사한 집단 행동을 재현할 것으로 기대됩니다. 그러나 우리는 많은 최근 연구들이 그들의 주장 타당성을 체계적으로 훼손하는 실험 설계를 채택하고 있음을 발견했습니다. 40편 이상의 논문 조사를 통해, 우리는 여섯 가지 반복되는 방법론적 결함을 식별했습니다: 에이전트는 종종 동질적임(Profile), 상호작용이 없거나 인위적으로 부과됨(Interaction), 기억이 버려짐(Memory), 프롬프트가 결과를 강하게 통제함(Minimal-Control), 에이전트가 실험 가설을 유추할 수 있음(Unawareness), 그리고 검증이 실세계 데이터가 아닌 단순화된 이론 모델에 의존함(Realism). 예를 들어, GPT-4o와 Qwen-3는 이전 연구에서 주어진 지시를 통해 53.1%의 경우에 기본 사회 실험을 올바르게 유추하여 Unawareness 원칙을 위반했습니다. 우리는 이 여섯 가지 요구 조건을 PIMMUR 원칙으로 공식화하고, 이것들이 신뢰할 수 있는 LLM 기반 사회 시뮬레이션을 위한 필수 조건임을 주장합니다. 이들의 영향을 입증하기 위해, 우리는 PIMMUR을 엄격히 적용하는 프레임워크를 사용하여 다섯 개의 대표적 연구를 재실행했고, 보고된 사회 현상들이 더 엄격한 조건 하에서 자주 나타나지 않음을 발견했습니다. 우리의 연구는 LLM 기반 다중 에이전트 연구에 대한 방법론적 기준을 수립하고 "AI 사회"에 관한 더 신뢰할 수 있고 재현 가능한 주장을 위한 기초를 제공합니다.
Zhou 외(월요일,)가 이 질문을 연구했습니다.