Los puntos clave no están disponibles para este artículo en este momento.
Los chatbots recientemente desarrollados basados en grandes modelos de lenguaje (en adelante llamados bots) tienen características prometedoras que podrían facilitar la educación médica. Varios bots están disponibles de forma gratuita, pero su competencia ha sido evaluada de manera insuficiente. En este estudio, los autores han probado el rendimiento actual en el examen de licencia médica de opción múltiple de la Universidad de Amberes (Bélgica) de seis bots ampliamente utilizados: ChatGPT (OpenAI), Bard (Google), New Bing (Microsoft), Claude instant (Anthropic), Claude+ (Anthropic) y GPT-4 (OpenAI). El resultado primario fue el rendimiento en el examen expresado como una proporción de respuestas correctas. Se realizaron análisis secundarios para una variedad de características en las preguntas del examen: preguntas fáciles versus difíciles, preguntas gramaticalmente positivas versus negativas, y viñetas clínicas versus preguntas teóricas. Se examinaron errores de razonamiento y afirmaciones falsas (alucinaciones) en las respuestas de los bots. Todos los bots aprobaron el examen; Bing y GPT-4 (ambos con un 76% de respuestas correctas) superaron a los otros bots (62-67%, p = 0.03) y a los estudiantes (61%). Los bots tuvieron un peor desempeño en preguntas difíciles (62%, p = 0.06), pero superaron a los estudiantes (32%) en esas preguntas aún más (p<0.01). Se encontraron alucinaciones en el 7% de las respuestas de Bing y GPT-4, significativamente menos que Bard (22%, p<0.01) y Claude Instant (19%, p = 0.02). Aunque los creadores de todos los bots intentan en cierta medida evitar que sus bots sean utilizados como médicos, ninguno de los bots probados tuvo éxito, ya que ninguno se negó a responder todas las preguntas de casos clínicos. Bing pudo detectar preguntas de examen débiles o ambiguas. Los bots podrían ser utilizados como una herramienta eficiente en tiempo para mejorar la calidad de un examen de opción múltiple.
Morreel et al. (Wed,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: