May 10, 2019Open Access

BioWordVec, aprimorando incorporações de palavras biomédicas com informações de subpalavras e MeSH

Key Points

Key points are not available for this paper at this time.

Abstract

Representações distribuídas de palavras tornaram-se uma base essencial para o processamento de linguagem natural biomédica (BioNLP), mineração de texto e recuperação de informações. As incorporações de palavras são tradicionalmente calculadas ao nível da palavra a partir de um grande corpus de texto não rotulado, ignorando as informações presentes na estrutura interna das palavras ou quaisquer informações disponíveis em recursos estruturados específicos da área, como ontologias. No entanto, tais informações possuem o potencial de melhorar significativamente a qualidade da representação das palavras, conforme sugerido em alguns estudos recentes na área geral. Aqui apresentamos o BioWordVec: um conjunto aberto de vetores/incorporações de palavras biomédicas que combina informações de subpalavras de texto biomédico não rotulado com um vocabulário controlado biomédico amplamente utilizado, chamado Medical Subject Headings (MeSH). Avaliamos tanto a validade quanto a utilidade de nossas incorporações de palavras geradas em várias tarefas de PNL no domínio biomédico. Nossos resultados de benchmarking demonstram que nossas incorporações de palavras podem resultar em um desempenho significativamente melhorado em relação ao estado da arte anterior nessas tarefas desafiadoras.

Perguntar à IA

Bookmark

View Full Paper