대규모 언어 모델(LLMs)이 실험 설계에서 참가자 수준의 데이터셋을 시뮬레이션하여 효과 방향, 크기 및 유의성 등 통계적 특성이 실제 인간 데이터와 일치할 수 있을까? 본 연구에서는 LLMs가 연구의 사전 등록에서 제공된 정보만을 사용하여 실제 무작위 대조 시험(RCT)의 핵심 발견을 재현하는 시뮬레이션 데이터셋을 생성할 수 있는지 여부를 테스트했습니다. 우리는 이러한 정렬이 다양한 LLM(챗GPT, 제미니, 퍼플렉스티)과 학생 성과를 비교하는 수학 추론 작업 및 사회적 판단 작업을 포함한 다양한 실험 도메인에서 일반화되는지를 평가했습니다. 우리는 LLM 시뮬레이션 데이터셋이 효과 방향에서 실제 데이터와 유사하고 원래의 통계적 유의성 패턴을 성공적으로 복원했다는 것을 발견했습니다. LLM은 경험적 연구를 대체할 수는 없지만, 우리의 연구는 아이디어 테스트를 가속화하고 연구 디자인을 다듬으며 실제 세계 실험을 수행하기 전에 연구 결과의 강건성을 탐구할 수 있는 강력하고 유연한 보완 수단을 제공합니다.
Lukumon et al. (수요일)은 이 질문을 연구했습니다.