Las evaluaciones clínicas de modelos de lenguaje grande (LLMs) se han expandido rápidamente desde 2022, sin embargo, su base de evidencia sigue siendo opaca. El abrumador volumen de estudios crea desafíos para la curaduría y revisión manual. Sin embargo, los propios LLMs ofrecen la escalabilidad y capacidad para evaluar la creciente base de evidencia. Esta revisión asistida por LLM identificó 4,609 estudios revisados por pares en medicina clínica entre enero de 2022 y septiembre de 2025, lo que equivale a aproximadamente 3.2 artículos por día. Solo 1,048 estudios utilizaron datos de pacientes del mundo real y de estos, solo 19 fueron ensayos controlados aleatorios prospectivos; la mayoría abordaron escenarios simulados (n = 1,857) o tareas de estilo examen (n = 1,704). ChatGPT y modelos relacionados de OpenAI constituyen el 65.7% de los modelos evaluados, con Gemini/Bard en un distante segundo lugar constituyendo el 13.1% de los modelos evaluados. La comunicación y educación orientada al paciente representaron el 17% de las tareas, seguidas por la recuperación de conocimiento y la simulación de educación y evaluación. En 1,046 comparaciones directas, los LLMs superaron a los humanos en el 33% de las comparaciones, con una fuerte dependencia del realismo de la tarea y el nivel de entrenamiento. Al menos el 25% de los estudios tenían tamaños de muestra menores a 30. A pesar del crecimiento de los LLMs en medicina, la evidencia rigurosa y centrada en el paciente sigue siendo escasa, subrayando la necesidad de ensayos prospectivos más grandes antes de la adopción clínica. Una revisión sistemática impulsada por un modelo de lenguaje grande (LLM) de más de 1,000 estudios reveló que, a pesar del crecimiento de la investigación médica que involucra LLMs, la mayoría de los estudios no implican datos clínicos del mundo real.
Chen et al. (Tue,) estudiaron esta cuestión.