What does this research mean for the field?

Despite the growth of medical research involving large language models (LLMs), a majority of studies do not involve real-world clinical data. Novelty: ClaimNovelty.SYNTHESIS. Consensus alignment: ConsensusAlignment.NEUTRAL.

What question did this study set out to answer?

Evaluar la utilización y evidencia de modelos de lenguaje grande (LLMs) en medicina clínica.

March 5, 2026Open Access

Revisión sistemática asistida por LLM de modelos de lenguaje grande en medicina clínica

Puntos clave

Evaluar la utilización y evidencia de modelos de lenguaje grande (LLMs) en medicina clínica.
Realizada revisión sistemática asistida por LLM de 4,609 estudios revisados por pares publicados desde enero de 2022 hasta septiembre de 2025.
Analizados los estudios en función del uso de datos de pacientes del mundo real y tipos de ensayos.
Clasificadas las tareas para LLMs en entornos clínicos, incluyendo comunicación y recuperación de conocimiento.
Solo 1,048 estudios utilizaron datos de pacientes del mundo real, con solo 19 siendo ensayos controlados aleatorios prospectivos.
Los LLMs superaron a los humanos en el 33% de las comparaciones directas, dependiendo del realismo de la tarea y entrenamiento.
La mayoría de los estudios (1,857) abordaron escenarios simulados o tareas de estilo examen, con el 25% teniendo tamaños de muestra menores a 30.

Resumen

Las evaluaciones clínicas de modelos de lenguaje grande (LLMs) se han expandido rápidamente desde 2022, sin embargo, su base de evidencia sigue siendo opaca. El abrumador volumen de estudios crea desafíos para la curaduría y revisión manual. Sin embargo, los propios LLMs ofrecen la escalabilidad y capacidad para evaluar la creciente base de evidencia. Esta revisión asistida por LLM identificó 4,609 estudios revisados por pares en medicina clínica entre enero de 2022 y septiembre de 2025, lo que equivale a aproximadamente 3.2 artículos por día. Solo 1,048 estudios utilizaron datos de pacientes del mundo real y de estos, solo 19 fueron ensayos controlados aleatorios prospectivos; la mayoría abordaron escenarios simulados (n = 1,857) o tareas de estilo examen (n = 1,704). ChatGPT y modelos relacionados de OpenAI constituyen el 65.7% de los modelos evaluados, con Gemini/Bard en un distante segundo lugar constituyendo el 13.1% de los modelos evaluados. La comunicación y educación orientada al paciente representaron el 17% de las tareas, seguidas por la recuperación de conocimiento y la simulación de educación y evaluación. En 1,046 comparaciones directas, los LLMs superaron a los humanos en el 33% de las comparaciones, con una fuerte dependencia del realismo de la tarea y el nivel de entrenamiento. Al menos el 25% de los estudios tenían tamaños de muestra menores a 30. A pesar del crecimiento de los LLMs en medicina, la evidencia rigurosa y centrada en el paciente sigue siendo escasa, subrayando la necesidad de ensayos prospectivos más grandes antes de la adopción clínica. Una revisión sistemática impulsada por un modelo de lenguaje grande (LLM) de más de 1,000 estudios reveló que, a pesar del crecimiento de la investigación médica que involucra LLMs, la mayoría de los estudios no implican datos clínicos del mundo real.

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo