March 29, 2024Open Access

건강 문해력에서 대규모 언어 모델의 효능 평가: 포괄적인 단면 연구

Key Points

Key points are not available for this paper at this time.

Abstract

어린이의 향상된 건강 문해력은 장기적으로 더 나은 건강 결과와 경험적으로 연결되어 있습니다. 그러나 건강 문해력을 개선하는 개입은 거의 나타나지 않았습니다. 이러한 맥락에서, 우리는 대규모 언어 모델(LLMs)이 어린이의 건강 문해력을 개선하는 매개체로 작용할 수 있는지를 조사합니다. 우리는 ChatGPT-3.5, ChatGPT-4, Microsoft Bing 및 Google Bard(현재 Google Gemini로 알려짐)에서 26가지 다른 프롬프트를 사용하여 소아 질환을 테스트했습니다. 주요 결과 측정 지표는 Gunning Fog, Flesch-Kincaid Grade Level, Automated Readability Index 및 Coleman-Liau 지수를 통해 평가된 출력의 독해 수준(RGL)이었습니다. 단어 수 또한 평가되었습니다. 모든 모델에서 '설명하라' 및 '무엇이 (무엇이든지)'와 같은 기본 프롬프트에 대한 출력은 10학년 RGL에 도달하거나 초과했습니다. 프롬프트가 1학년부터 12학년 수준으로 조건을 설명하도록 지정되었을 때, 우리는 LLM이 학년 수준에 따라 응답을 조정하는 능력이 다양하다는 것을 발견했습니다. ChatGPT-3.5는 7학년에서 대학 신입생 RGL에 이르는 응답을 제공했고, ChatGPT-4는 10학년에서 대학 졸업생 RGL에 이르는 응답을 출력했습니다. Microsoft Bing은 9학년에서 11학년 RGL에 이르는 응답을 제공했으며, Google Bard는 7학년에서 10학년 RGL에 이르는 응답을 제공했습니다. LLM은 6학년 RGL 이하의 출력을 작성하는 데 어려움을 겪습니다. 그러나 이 기준 이상으로 출력을 수정하는 능력은 청소년들이 자신의 건강 상태에 대한 정보를 탐색하고 이해하며 참여할 수 있는 잠재적 메커니즘을 제공합니다. 향후 연구가 이러한 도구의 정확성과 효능을 확인할 필요가 있습니다.

건강 문해력에서 대규모 언어 모델의 효능 평가: 포괄적인 단면 연구

Key Points

Abstract

Cite This Study