March 9, 2022Open Access

CancerBERT: un modelo de lenguaje específico del dominio del cáncer para extraer fenotipos de cáncer de mama de registros electrónicos de salud

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

OBJETIVO: La extracción precisa de los fenotipos de pacientes con cáncer de mama es importante para el apoyo a la decisión clínica y la investigación clínica. Este estudio desarrolló y evaluó modelos preentrenados de CancerBERT específicos para el dominio del cáncer para extraer fenotipos de cáncer de mama de textos clínicos. También investigamos el efecto del vocabulario relacionado con el cáncer personalizado en el rendimiento de los modelos de CancerBERT. MATERIALES Y MÉTODOS: Se extrajo un corpus relacionado con el cáncer de pacientes con cáncer de mama de los registros electrónicos de salud de un hospital local. Anotamos entidades nombradas en 200 informes de patología y 50 notas clínicas para 8 fenotipos de cáncer para ajuste fino y evaluación. Continuamos preentrenando el modelo BlueBERT en el corpus de cáncer con vocabularios expandidos (utilizando métodos basados en la frecuencia de término y métodos revisados manualmente) para obtener modelos de CancerBERT. Los modelos de CancerBERT fueron evaluados y comparados con otros modelos de referencia en la tarea de extracción de fenotipos de cáncer. RESULTADOS: Todos los modelos de CancerBERT superaron a todos los demás modelos en la tarea de NER de fenotipado del cáncer. Ambos modelos de CancerBERT con vocabularios personalizados superaron al CancerBERT con el vocabulario original de BERT. El modelo de CancerBERT con vocabulario personalizado revisado manualmente alcanzó el mejor rendimiento con puntuaciones F1 macro iguales a 0.876 (IC del 95%, 0.873-0.879) y 0.904 (IC del 95%, 0.902-0.906) para coincidencia exacta y coincidencia laxa, respectivamente. CONCLUSIONES: Los modelos de CancerBERT fueron desarrollados para extraer los fenotipos de cáncer en notas clínicas e informes de patología. Los resultados validaron que el uso de vocabulario personalizado puede mejorar aún más el rendimiento de los modelos BERT específicos del dominio en tareas de NLP clínico. Los modelos de CancerBERT desarrollados en el estudio ayudarían además en el apoyo a la decisión clínica.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Sicheng Zhou

General Electric (Spain)

Nan Wang

Qingdao University

Liwei Wang

Western University

Journals

Journal of the American Medical Informatics Association

Actions

Institutions

University of Minnesota

Mayo Clinic in Florida

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

CancerBERT: un modelo de lenguaje específico del dominio del cáncer para extraer fenotipos de cáncer de mama de registros electrónicos de salud

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Also consider