Los grandes modelos de lenguaje médico (LLMs) que alcanzan alta precisión en benchmarks muestran una variabilidad inexplicada en tareas clínicas, produciendo errores contra los que los clínicos no pueden protegerse. Evaluamos la estabilidad del razonamiento clínico en GPT-5, MedGemma-27B-Text-IT y OpenBioLLM-Llama3-70B usando 355 perturbaciones sistemáticas de casos oncológicos validados por médicos y entrenamos autoencoders dispersos en 1 billón de tokens de 50,000 notas clínicas MIMIC-IV para descomponer su representación interna. Encontramos que los modelos exhiben una inestabilidad dramática en el razonamiento, cambiando la exactitud en la estadificación en más del 50% basado únicamente en el formato del prompt, o generando estadificación definitiva en escenarios clínicamente insuficientes. El análisis con autoencoders dispersos reveló una codificación jerárquica en MedGemma, donde las características de alta magnitud codifican identidad léxica y las de baja magnitud codifican significado contextual. OpenBioLLM distribuye la información uniformemente. Demostramos que estas estructuras de codificación interna afectan diferencialmente las intervenciones de recuperación, sugiriendo que las intervenciones efectivas para una arquitectura pueden ser perjudiciales para otra. Recomendamos que las instituciones sanitarias implementen validación de seguridad especifica para cada arquitectura, ya que la equivalencia en benchmarks no implica equivalencia funcional, con implicaciones para la seguridad de la IA más allá del cuidado de la salud.
Modi et al. (Tue,) estudiaron esta cuestión.