Key points are not available for this paper at this time.
최근 연구에 따르면 대형 언어 모델(LLMs)은 선택지만을 사용하여 객관식 질문에 답할 수 있지만, 이것이 LLM의 MCQA 리더보드 순위가 주로 선택지 전용 설정에서의 능력에 의해 영향을 받는다는 것을 의미할까요? 이를 답하기 위해, 우리는 LLM이 MCQA에서 선택지만을 의존하는 경향이 있는지를 탐구하는 대조 세트를 사용합니다. 이전 연구에서는 비싼 인간 주석이나 편향될 수 있는 모델 생성 데이터를 통해 대조 세트를 구축했지만, 우리는 그래프 마이닝을 사용하여 기존 MCQA 데이터 세트에서 대조 세트를 추출합니다. 우리는 일반 상식 추론 데이터 세트 6개로 구성된 UnifiedQA에서 820개의 질문으로 대조 세트를 구축하기 위해 우리의 방법을 사용합니다. 대조 세트를 검증한 후, 12개의 LLM을 테스트한 결과, 질문과 선택지를 모두 제시했을 때 이러한 모델은 선택지만을 의존하는 경향을 보이지 않았습니다. 따라서 MCQA가 높은 선택지 전용 정확도에 취약함에도 불구하고, 우리는 LLM이 선택지만을 이용한 속임수로 인해 MCQA 리더보드에서 높은 순위를 얻지 못하고 있다고 주장합니다.
Balepur et al. (화요일,)이 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: