July 23, 2025

실험실의 LLM: AI가 실제 참가자의 행동을 예측할 수 있을까?

Key Points

LLM은 무작위 대조 시험에서 발견된 인간 데이터의 효과 방향과 유의성을 재현할 수 있습니다.
이 연구는 챗GPT와 제미니를 포함한 여러 LLM을 다양한 실험 도메인에서 분석했습니다.
결과는 LLM 시뮬레이션 데이터셋이 연구 디자인 개선 및 연구의 강건성 향상에 대한 통찰력을 제공함을 나타냅니다.
이 접근 방식은 전통적인 경험적 연구를 대체하지 않고 보완하는 협업 도구를 제공합니다.

Abstract

대규모 언어 모델(LLMs)이 실험 설계에서 참가자 수준의 데이터셋을 시뮬레이션하여 효과 방향, 크기 및 유의성 등 통계적 특성이 실제 인간 데이터와 일치할 수 있을까? 본 연구에서는 LLMs가 연구의 사전 등록에서 제공된 정보만을 사용하여 실제 무작위 대조 시험(RCT)의 핵심 발견을 재현하는 시뮬레이션 데이터셋을 생성할 수 있는지 여부를 테스트했습니다. 우리는 이러한 정렬이 다양한 LLM(챗GPT, 제미니, 퍼플렉스티)과 학생 성과를 비교하는 수학 추론 작업 및 사회적 판단 작업을 포함한 다양한 실험 도메인에서 일반화되는지를 평가했습니다. 우리는 LLM 시뮬레이션 데이터셋이 효과 방향에서 실제 데이터와 유사하고 원래의 통계적 유의성 패턴을 성공적으로 복원했다는 것을 발견했습니다. LLM은 경험적 연구를 대체할 수는 없지만, 우리의 연구는 아이디어 테스트를 가속화하고 연구 디자인을 다듬으며 실제 세계 실험을 수행하기 전에 연구 결과의 강건성을 탐구할 수 있는 강력하고 유연한 보완 수단을 제공합니다.

Bookmark

실험실의 LLM: AI가 실제 참가자의 행동을 예측할 수 있을까?

Key Points

Abstract

Cite This Study