December 6, 2025Open Access

Automating expert-level medical reasoning evaluation of large language models

Key Points

Evaluation framework enhances medical reasoning quality in clinical practice, enabling better decision-making.
Scalability is a critical factor, requiring only 1.4% of the evaluation time compared to traditional methods.
This study introduces MedThink-Bench as a comprehensive benchmark for assessing large language models.
New assessment strategy emphasizes rigorous evaluation to ensure trustworthy use of LLMs in clinical settings.

Abstract

Abstract As large language models (LLMs) become increasingly integrated into clinical decision-making, ensuring trustworthy reasoning is paramount. However, current evaluation strategies of LLMs’ medical reasoning capability either suffer from unsatisfactory assessment or poor scalability, and a rigorous benchmark remains absent. To address this, we present MedThink-Bench, a benchmark designed for rigorous and scalable assessment of LLMs’ medical reasoning. MedThink-Bench comprises 500 high-complexity questions spanning ten medical domains, accompanied by expert-authored, step-by-step rationales that elucidate intermediate reasoning processes. Further, we introduce LLM-w-Rationale, an evaluation framework that combines fine-grained rationale assessment with an LLM-as-a-Judge paradigm, enabling expert-level fidelity in evaluating reasoning quality while preserving scalability. Results show that LLM-w-Rationale correlates strongly with expert evaluation (Pearson coefficient up to 0.87) while requiring only 1.4% of the evaluation time. Overall, MedThink-Bench establishes a rigorous and scalable standard for evaluating medical reasoning in LLMs, advancing their safe and responsible deployment in clinical practice.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper