December 1, 2018

Recherche sur la classification des textes de brevets basée sur Word2Vec et LSTM

Key Points

Key points are not available for this paper at this time.

Abstract

Afin de classifier efficacement les textes de brevets dans le domaine de la sécurité, un modèle de classification des textes de brevets basé sur Word2Vec et la mémoire à long et court terme (LSTM) a été établi. En combinant les caractéristiques du texte de brevet, tout d'abord, lors du processus de prétraitement du texte, des mots fréquemment utilisés dans les documents de brevets tels que « l'invention », « implication » et « modèle d'utilité » ont été ajoutés à la liste des mots vides afin d'économiser de l'espace de stockage et d'améliorer l'efficacité ; Deuxièmement, le modèle Word2Vec pré-entraîné a été introduit pour résoudre le désastre dimensionnel causé par les méthodes traditionnelles. Enfin, en entraînant le modèle de classification LSTM, les caractéristiques du texte ont été extraites et la classification des textes de brevets dans le domaine de la sécurité a été effectuée. 50 000 documents de brevets ont été divisés en ensemble d'entraînement et ensemble de test selon le ratio de 4:1, et l'exactitude ainsi que le modèle d'évaluation de la courbe ROC ont été utilisés pour analyser et évaluer les résultats de classification. Les résultats ont montré que le taux de précision de classification de cette méthode est de 93,48 %. En même temps, le modèle de classification LSTM, le modèle de classification K Nearest Neighbor (KNN), le modèle de classification Convolutional Neural Network (CNN) et les modèles basés sur CNN et Word2Vec ont été comparés. Les résultats expérimentaux ont montré que cette méthode peut mieux classifier les textes de brevets dans le domaine de la sécurité, posant les bases pour des recherches ultérieures et une utilisation efficace des brevets.

Bookmark

Recherche sur la classification des textes de brevets basée sur Word2Vec et LSTM

Key Points

Abstract

Cite This Study