Los puntos clave no están disponibles para este artículo en este momento.
La aparición de varios modelos de lenguaje médico grandes (LLMs) en el dominio médico ha puesto de manifiesto la necesidad de estándares de evaluación unificados, ya que la evaluación manual de LLMs resulta ser un proceso que consume tiempo y es laborioso. Para abordar este problema, presentamos MedBench, un banco de pruebas integral para el dominio médico chino, que comprende 40,041 preguntas obtenidas de ejercicios de examen auténticos e informes médicos de diversas ramas de la medicina. En particular, este banco de pruebas está compuesto por cuatro componentes clave: el Examen de Licencia Médica de China, el Examen de Capacitación Estándara de Residentes, el Examen de Calificación del Médico Responsable y casos clínicos del mundo real que abarcan exámenes, diagnósticos y tratamientos. MedBench reproduce la progresión educativa y las experiencias de práctica clínica de los médicos en China continental, estableciéndose así como un banco de pruebas creíble para evaluar el dominio del conocimiento y las habilidades de razonamiento en los modelos de aprendizaje de lenguaje médico. Realizamos experimentos extensos y llevamos a cabo un análisis en profundidad desde diversas perspectivas, que culminan en los siguientes hallazgos: (1) Los LLMs médicos chinos tienen un rendimiento inferior en este banco de pruebas, destacando la necesidad de avances significativos en el conocimiento clínico y la precisión diagnóstica. (2) Varios LLMs de dominio general sorprendentemente poseen un conocimiento médico considerable. Estos hallazgos elucidarán tanto las capacidades como las limitaciones de los LLMs dentro del contexto de MedBench, con el objetivo final de ayudar a la comunidad de investigación médica.
Cai et al. (Sun,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: