March 3, 2026Open Access

Comprendiendo la variabilidad en el razonamiento clínico en grandes modelos de lenguaje médico: un estudio de interpretabilidad mecanicista

Puntos clave

Los modelos muestran una inestabilidad significativa en el razonamiento, cambiando la precisión en la estadificación en más del 50% basándose únicamente en el formato del prompt.
El análisis con autoencoders dispersos revela una codificación jerárquica que afecta cómo los modelos interpretan casos clínicos y responden preguntas.
La evaluación de 355 perturbaciones sistemáticas muestra que la equivalencia en benchmarks no garantiza equivalencia funcional entre arquitecturas de modelos.
Los hallazgos enfatizan la necesidad de validación de seguridad dirigida en aplicaciones de IA para el cuidado de la salud, ya que las arquitecturas diversas responden de distinto modo a las intervenciones.

Resumen

Los grandes modelos de lenguaje médico (LLMs) que alcanzan alta precisión en benchmarks muestran una variabilidad inexplicada en tareas clínicas, produciendo errores contra los que los clínicos no pueden protegerse. Evaluamos la estabilidad del razonamiento clínico en GPT-5, MedGemma-27B-Text-IT y OpenBioLLM-Llama3-70B usando 355 perturbaciones sistemáticas de casos oncológicos validados por médicos y entrenamos autoencoders dispersos en 1 billón de tokens de 50,000 notas clínicas MIMIC-IV para descomponer su representación interna. Encontramos que los modelos exhiben una inestabilidad dramática en el razonamiento, cambiando la exactitud en la estadificación en más del 50% basado únicamente en el formato del prompt, o generando estadificación definitiva en escenarios clínicamente insuficientes. El análisis con autoencoders dispersos reveló una codificación jerárquica en MedGemma, donde las características de alta magnitud codifican identidad léxica y las de baja magnitud codifican significado contextual. OpenBioLLM distribuye la información uniformemente. Demostramos que estas estructuras de codificación interna afectan diferencialmente las intervenciones de recuperación, sugiriendo que las intervenciones efectivas para una arquitectura pueden ser perjudiciales para otra. Recomendamos que las instituciones sanitarias implementen validación de seguridad especifica para cada arquitectura, ya que la equivalencia en benchmarks no implica equivalencia funcional, con implicaciones para la seguridad de la IA más allá del cuidado de la salud.

Comprendiendo la variabilidad en el razonamiento clínico en grandes modelos de lenguaje médico: un estudio de interpretabilidad mecanicista

Puntos clave

Resumen

Cite This Study