Key points are not available for this paper at this time.
독해력(RC) 과제는 종종 맥락 기반 질문 응답(QA)으로 구현되어 언어 모델의 자연어 이해(NLU) 능력을 평가하는 주요 수단을 제공합니다. 그러나 광범위한 내장 세계 지식을 가진 대형 언어 모델(LLMs)에 적용할 경우 이 방법은 오해를 불러일으킬 수 있습니다. 맥락이 LLMs의 내부 지식과 일치할 경우 모델의 답변이 맥락 이해에서 연유하는 것인지 LLMs의 내부 정보에서 유래하는 것인지 구별하기 어렵습니다. 반대로, 모델의 지식과 상충하는 데이터를 사용할 경우 잘못된 추세가 생성되어 결과를 왜곡하게 됩니다. 이 문제를 해결하기 위해 우리는 허구의 사실과 엔티티에 기반한 가상의 데이터에서 RC를 사용하는 것을 제안합니다. 이 과제는 모델의 세계 지식과 완전히 독립적이며, 매개변수 지식의 간섭 없이 LLMs의 언어적 능력을 평가할 수 있게 해줍니다. ChatGPT, GPT-4, LLaMA 2 및 Mixtral을 이러한 가상의 데이터에서 테스트한 결과, 대안적인 가설적 시나리오에 대한 사고와 관련된 현재 LLMs에 도전하는 언어 현상의 한 종류를 발견했습니다. 모든 모델이 단순한 긍정 및 부정 맥락을 높은 정확도로 처리하는 반면, 모달 및 조건부 맥락을 다룰 때는 훨씬 더 오류를 범하는 경향이 있습니다. 특히, 이러한 현상은 LLMs의 지식 충돌에 대한 취약성을 다시 촉발합니다. 특히 일부 모델은 긍정적 및 부정적 맥락에서는 사실상 지식 충돌에 영향을 받지 않지만, 의미적으로 더 복잡한 모달 및 조건부 환경에 직면했을 때 텍스트를 내부 지식과 분리하지 못하는 경우가 많습니다.
Basmov et al. (화요일)이 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: