August 14, 2025Open Access

IA vs Rendimiento Humano en el Diagnóstico Neurológico Conversacional Basado en Hospital

Puntos clave

Los neurólogos humanos lograron una precisión diagnóstica del 81% en 97 sesiones, lo que indica un rendimiento comparable con los sistemas de IA.
Gregory, el sistema de IA, logró una precisión diagnóstica perfecta a un costo promedio de $1,423, significativamente más bajo que los costos de los neurólogos humanos.
Usando una plataforma basada en la web, comparamos 14 neurólogos y múltiples modelos de lenguaje grande en tareas de diagnóstico dinámicas.
Los sistemas de IA como Gregory redujeron el tiempo hasta el diagnóstico de manera significativa, con un promedio de 23 días en comparación con 43 días para los neurólogos humanos.

Resumen

Resumen Antecedentes La mayoría de las evaluaciones de inteligencia artificial (IA) en medicina se basan en puntos de referencia estáticos de opción múltiple que no logran captar la naturaleza dinámica y secuencial del diagnóstico clínico. Si bien la IA conversacional ha mostrado ser prometedora en telemedicina, estos sistemas rara vez evalúan el proceso de toma de decisiones iterativo en el que los clínicos recogen información, ordenan pruebas y refinan diagnósticos. Métodos Desarrollamos DiagnosticXchange, una plataforma basada en la web que simula interacciones clínicas realistas entre proveedores y consultores especialistas. Un agente 'enfermero' responde a solicitudes de médicos humanos o sistemas de IA que actúan como diagnosticians. Se extrajeron dieciséis desafíos de diagnóstico neurológico de complejidad variable de diversas fuentes educativas y revisadas por pares. Evaluamos a 14 neurólogos en diferentes etapas de formación y múltiples modelos de lenguaje grande (LLMs) de última generación utilizando métricas de eficiencia, que incluyen: precisión diagnóstica, eficiencia de costos procedimentales (basada en códigos CPT y precios del hospital), y tiempo hasta el diagnóstico (utilizando duraciones de procedimientos reales). También desarrollamos a Gregory, un sistema multi-agente especializado que genera sistemáticamente diagnósticos diferenciales, desafía hipótesis iniciales y selecciona estratégicamente pruebas diagnósticas de alto rendimiento. Resultados Los neurólogos humanos lograron una precisión diagnóstica del 81% (79% residentes, 88% especialistas) en 97 sesiones; los LLMs base variaron del 81 al 94%. Gregory logró una precisión diagnóstica perfecta con costos diagnósticos notablemente más bajos (promedio 1,423; IC del 95%: 450-2,860) en comparación con neurólogos humanos (promedio 3,041; IC del 95%: 2,464-3,677; p=0.008) y LLMs base (promedio 2,759; IC del 95%: 2,137-3,476; p=0.002). El tiempo hasta el diagnóstico también fue más corto con Gregory (23 días; IC del 95%: 6-48) frente a neurólogos humanos (43 días; IC del 95%: 31-58; p=0.002) y modelos base (41 días; IC del 95%: 31-51; p=0.07). La plataforma reveló patrones diagnósticos distintos: los usuarios humanos y algunos LLMs base ordenaron con frecuencia pruebas amplias y costosas, mientras que Gregory empleó estrategias dirigidas que evitaron procedimientos innecesarios sin sacrificar exhaustividad. Conclusiones Un sistema de IA multi-agente bien diseñado superó tanto a los médicos humanos como a los LLMs base en precisión diagnóstica, al tiempo que redujo costos y tiempo. DiagnosticXchange permite la evaluación sistemática de la eficiencia diagnóstica y el razonamiento en escenarios interactivos realistas, ofreciendo una alternativa clínicamente relevante a los puntos de referencia estáticos y un camino hacia un diagnóstico asistido por IA más efectivo.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo