Key points are not available for this paper at this time.
대규모 언어 모델(LLMs)을 의료에 적용하려는 관심이 증가하는 것은 이들이 의료 시험 문제에서 인상적인 성능을 보이기 때문입니다. 그러나 이러한 시험은 환자의 순응도, 경험, 인지 편향과 같은 요인으로 인해 실제 환자-의사 상호작용의 복잡성을 포착하지 못합니다. 우리는 LLM이 편향되지 않은 질문에 비해 임상적으로 편향된 질문에 직면할 때 덜 정확한 응답을 생성할 것이라고 가설을 세웠습니다. 이를 검증하기 위해, 우리는 일반적인 임상적으로 관련된 인지 편향을 복제하기 위해 수정된 1273개의 USMLE 질문으로 구성된 BiasMedQA 데이터셋을 개발했습니다. 우리는 BiasMedQA에서 여섯 개의 LLM을 평가했으며, GPT-4가 편향에 대한 탄력성에서 두드러져 있으며, Llama 2 70B-chat 및 PMC Llama 13B는 성능이 크게 저하된 것을 발견했습니다. 또한, 세 가지 편향 완화 전략을 도입했으며, 이는 정확도를 개선했지만 완전히 회복시키지는 못했습니다. 우리의 발견은 LLM이 의료 분야에서 보다 신뢰할 수 있는 응용 프로그램을 달성하기 위해 인지 편향에 대한 탄력성을 향상시킬 필요성을 강조합니다.
Schmidgall 외(2023)는 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: