Resumen Antecedentes La mayoría de las evaluaciones de inteligencia artificial (IA) en medicina se basan en puntos de referencia estáticos de opción múltiple que no logran captar la naturaleza dinámica y secuencial del diagnóstico clínico. Si bien la IA conversacional ha mostrado ser prometedora en telemedicina, estos sistemas rara vez evalúan el proceso de toma de decisiones iterativo en el que los clínicos recogen información, ordenan pruebas y refinan diagnósticos. Métodos Desarrollamos DiagnosticXchange, una plataforma basada en la web que simula interacciones clínicas realistas entre proveedores y consultores especialistas. Un agente 'enfermero' responde a solicitudes de médicos humanos o sistemas de IA que actúan como diagnosticians. Se extrajeron dieciséis desafíos de diagnóstico neurológico de complejidad variable de diversas fuentes educativas y revisadas por pares. Evaluamos a 14 neurólogos en diferentes etapas de formación y múltiples modelos de lenguaje grande (LLMs) de última generación utilizando métricas de eficiencia, que incluyen: precisión diagnóstica, eficiencia de costos procedimentales (basada en códigos CPT y precios del hospital), y tiempo hasta el diagnóstico (utilizando duraciones de procedimientos reales). También desarrollamos a Gregory, un sistema multi-agente especializado que genera sistemáticamente diagnósticos diferenciales, desafía hipótesis iniciales y selecciona estratégicamente pruebas diagnósticas de alto rendimiento. Resultados Los neurólogos humanos lograron una precisión diagnóstica del 81% (79% residentes, 88% especialistas) en 97 sesiones; los LLMs base variaron del 81 al 94%. Gregory logró una precisión diagnóstica perfecta con costos diagnósticos notablemente más bajos (promedio 1,423; IC del 95%: 450-2,860) en comparación con neurólogos humanos (promedio 3,041; IC del 95%: 2,464-3,677; p=0.008) y LLMs base (promedio 2,759; IC del 95%: 2,137-3,476; p=0.002). El tiempo hasta el diagnóstico también fue más corto con Gregory (23 días; IC del 95%: 6-48) frente a neurólogos humanos (43 días; IC del 95%: 31-58; p=0.002) y modelos base (41 días; IC del 95%: 31-51; p=0.07). La plataforma reveló patrones diagnósticos distintos: los usuarios humanos y algunos LLMs base ordenaron con frecuencia pruebas amplias y costosas, mientras que Gregory empleó estrategias dirigidas que evitaron procedimientos innecesarios sin sacrificar exhaustividad. Conclusiones Un sistema de IA multi-agente bien diseñado superó tanto a los médicos humanos como a los LLMs base en precisión diagnóstica, al tiempo que redujo costos y tiempo. DiagnosticXchange permite la evaluación sistemática de la eficiencia diagnóstica y el razonamiento en escenarios interactivos realistas, ofreciendo una alternativa clínicamente relevante a los puntos de referencia estáticos y un camino hacia un diagnóstico asistido por IA más efectivo.
Sorka et al. (Jue,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: