September 23, 2019Open Access

Usando Aprendizado de Máquina e Processamento de Linguagem Natural para Revisar e Classificar a Literatura Médica sobre Genes de Suscetibilidade ao Câncer

Key Points

Key points are not available for this paper at this time.

Abstract

OBJETIVO: A literatura médica relevante para genética germinativa está crescendo exponencialmente. Os clínicos precisam de ferramentas que ajudem a monitorar e priorizar a literatura para entender as implicações clínicas de variantes genéticas patogênicas. Desenvolvemos e avaliamos dois modelos de aprendizado de máquina para classificar resumos como relevantes para a penetrância-risco de câncer para portadores de mutações germinativas ou prevalência de mutações genéticas germinativas. MATERIAIS E MÉTODOS: Realizamos buscas na literatura no PubMed e recuperamos títulos e resumos de artigos para criar um conjunto de dados anotado para treinar e avaliar os dois modelos de classificação de aprendizado de máquina. Nosso primeiro modelo é uma máquina de vetor de suporte (SVM) que aprende uma regra de decisão linear com base na representação bag-of-ngrams de cada título e resumo. Nosso segundo modelo é uma rede neural convolucional (CNN) que aprende uma regra de decisão não linear complexa com base no título e resumo brutos. Avaliamos o desempenho dos dois modelos na classificação de artigos como relevantes para penetrância ou prevalência. RESULTADOS: Para a classificação de penetrância, anotamos 3.740 títulos de artigos e resumos e avaliamos os dois modelos usando validação cruzada de 10 vezes. O modelo SVM alcançou 88,93% de precisão - percentual de artigos que foram corretamente classificados - enquanto o modelo CNN alcançou 88,53% de precisão. Para a classificação de prevalência, anotamos 3.753 títulos de artigos e resumos. O modelo SVM alcançou 88,92% de precisão e o modelo CNN alcançou 88,52% de precisão. CONCLUSÃO: Nossos modelos alcançam alta precisão ao classificar resumos como relevantes para penetrância ou prevalência. Ao facilitar a revisão da literatura, esta ferramenta poderia ajudar clínicos e pesquisadores a se manterem atualizados sobre o conhecimento crescente das associações entre genes e câncer e manter as bases de conhecimento para ferramentas de suporte à decisão clínica atualizadas.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper