La transformación digital de la industria de la salud ha llevado a un volumen sin precedentes de datos multimodales. Las herramientas de extracción basadas en aprendizaje automático (ML) ofrecen soluciones prometedoras para gestionar esta explosión de datos, particularmente cuando se integran con sistemas de bases de datos federadas. Si un modelo de lenguaje grande (LLM) se entrena para extraer datos de esta información multimodal y asegurar una alta precisión mientras se mantiene asequible, el potencial para mejorar el proceso de extracción de datos en el campo médico sería ilimitado, reduciendo costos y mano de obra en general. Se llevó a cabo una revisión sistemática siguiendo las pautas de los Elementos Preferidos para Informes de Revisiones Sistemáticas y Meta-Análisis (PRISMA), buscando en las principales bases de datos estudios publicados entre 2018 y 2024, complementados con fuentes de literatura gris. El análisis se centró en el rendimiento y los costos de implementación de herramientas de extracción basadas en ML en entornos de atención médica. De 1,247 registros iniciales, 21 estudios cumplieron con los criterios de inclusión. La extracción basada en ML demostró una precisión superior, variando del 61% al 98%, en comparación con los métodos tradicionales. Los costos de implementación promediaron entre 500,000 y 2.5 millones. Emergiendo dos categorías principales de herramientas: basadas en imágenes y orientadas al texto. Las herramientas de extracción basadas en ML muestran una promesa significativa en la gestión de datos en salud, aunque la implementación exitosa requiere una cuidadosa consideración de los costos, los protocolos de seguridad y el cumplimiento regulatorio. El desarrollo de un LLM dedicado capaz de extraer datos de manera eficiente de varias fuentes médicas podría revolucionar la atención médica al simplificar la gestión de datos y reasignar recursos hacia la atención al paciente y los avances en investigación.
Khalpey et al. (Tue,) estudiaron esta cuestión.