October 1, 2015

Abordagem de grafo semântico genético para sumarização abstrativa de múltiplos documentos

Key Points

Key points are not available for this paper at this time.

Abstract

O objetivo da sumarização abstrativa automática de múltiplos documentos é criar uma versão comprimida do texto fonte e preservar as informações salientes. Os métodos existentes de sumarização baseados em grafo tratam as frases como sacos de palavras, dependem de medidas de similaridade de conteúdo e não consideram as relações semânticas entre as frases. Esses métodos podem falhar em determinar sentenças redundantes que são semanticamente equivalentes. Este artigo introduz uma abordagem baseada em grafo semântico genético para a sumarização abstrativa de múltiplos documentos. O grafo semântico do conjunto de documentos é construído de tal maneira que os nós do grafo representam as estruturas de argumentos de predicados (PASs), extraídas automaticamente pelo uso de rotulagem de papel semântico (SRL); e as arestas do grafo correspondem ao peso da similaridade semântica determinado pela similaridade semântica de PAS para PAS, e relacionamento de PAS para conjunto de documentos. O relacionamento de PAS para conjunto de documentos é representado por diferentes características, ponderadas e otimizadas por algoritmo genético. Os nós de grafo salientes (PASs) são classificados com base em um algoritmo de classificação baseado em grafo modificado. Para reduzir a redundância, utilizamos a relevância marginal máxima (MMR) para reclassificar os PASs e usamos geração de linguagem para gerar sentenças de resumo a partir dos PASs melhor classificados. O experimento deste estudo foi realizado usando DUC-2002, um corpus padrão para sumarização de texto. Os resultados experimentais revelam que a abordagem proposta apresenta desempenho melhor do que outros sistemas de sumarização.

Bookmark

Abordagem de grafo semântico genético para sumarização abstrativa de múltiplos documentos

Key Points

Abstract

Cite This Study

Also Consider

Also Consider