Key points are not available for this paper at this time.
A maneira mais importante de transmitir novas descobertas na pesquisa biomédica é a publicação científica. A extração de interações proteína-proteína (PPIs) relatadas em publicações científicas é um dos tópicos centrais da mineração de texto nas ciências da vida. Recentemente, uma nova classe de tais métodos foi proposta - kernels de convolução que identificam PPIs usando análises profundas de sentenças. No entanto, comparar os resultados publicados de diferentes métodos de extração de PPI é impossível devido ao uso de diferentes corpora de avaliação, diferentes métricas de avaliação, diferentes procedimentos de ajuste etc. Neste artigo, estudamos se as métricas de desempenho relatadas são robustas em diferentes corpora e configurações de aprendizado e se o uso de análise profunda realmente leva a um aumento na qualidade da extração. Nosso objetivo final é identificar o método que apresenta o melhor desempenho em cenários da vida real, onde a extração de informações é realizada em textos não vistos e não em dados de avaliação especificamente preparados. Realizamos uma avaliação abrangente de nove métodos diferentes para extração de PPI que utilizam kernels de convolução em informações linguísticas ricas. Os métodos foram avaliados em cinco corpora públicos diferentes usando validação cruzada, aprendizado cruzado e avaliação cruzada de corpus. Nosso estudo confirma que os kernels que usam árvores de dependência geralmente superam os kernels baseados em árvores de sintaxe. No entanto, nosso estudo também mostra que apenas os melhores métodos de kernel podem competir com uma abordagem simples baseada em regras quando a avaliação impede a vazamento de informações entre os corpora de treinamento e teste. Nossos resultados também revelam que o F-score de muitas abordagens cai significativamente se nenhuma otimização de parâmetro específica do corpus for aplicada e que métodos que alcançam uma boa pontuação AUC frequentemente apresentam desempenho muito pior em termos de F-score. Concluímos que, para a maioria dos kernels, nenhuma estimativa sensata do desempenho da extração de PPI em novos textos é possível, dada a atual heterogeneidade nos dados de avaliação. No entanto, nosso estudo mostra que três kernels são claramente superiores aos outros métodos.
Tikk et al. (Qui,) estudaram esta questão.