What does this research mean for the field?

Advanced large language models, including GPT-4, Claude 3 Opus, and Gemini 1.0 Pro, can successfully pass Step 1 of the Thai National Medical Licensing Examination with scores significantly above the national average, demonstrating high proficiency in both text-only and image-enhanced medical questions. Novelty: ClaimNovelty.CONFIRMATORY. Consensus alignment: ConsensusAlignment.NEUTRAL.

December 22, 2024Open Access

タイの国家医療ライセンス試験における大規模言語モデルの評価

Key Points

Key points are not available for this paper at this time.

Abstract

要約先進的な汎用大規模言語モデル（LLMs）、OpenAIのChat Generative Pre-trained Transformer（ChatGPT）、GoogleのGemini、AnthropicのClaudeなどは、画像入力を含む臨床質問への回答能力を示しています。タイの国家医療ライセンス試験（ThaiNLE）には、一般にアクセス可能な専門家による確認済みの学習資料が不足しています。本研究は、LLMsがタイNLEのステップ1に正確に回答できるかどうかを評価することを目的としています。この試験は、アメリカ医療ライセンス試験（USMLE）のステップ1に類似しています。300の選択肢問題からなる模擬試験データセットを利用し、その10.2％には画像が含まれていました。画像とテキストデータの両方を処理できるLLMsが使用され、具体的にはGPT-4、Claude 3 Opus、およびGemini 1.0 Proです。それぞれのモデルをAPIを通して5回実施し、パフォーマンスは平均精度に基づいて評価されました。我々の結果は、テストしたすべてのモデルが合格点を超え、上位のパフォーマーは全国平均の2標準偏差以上のスコアを達成したことを示しています。特に、最も高いスコアを得たモデルは88.9%の精度を達成しました。モデルは全トピックにわたって堅牢なパフォーマンスを示し、テキストのみおよび画像を強化した質問の両方で一貫した精度を誇りました。しかし、LLMsは視覚情報の処理において強力な能力を示したものの、テキストのみの質問に対するパフォーマンスはわずかに優れていました。本研究は、医療教育におけるLLMsの可能性、特に多様な試験問題を正確に解釈し応答する能力を強調しています。

AIに質問

Bookmark

View Full Paper