December 1, 2000

Textquest : Clustering de documents d'abstracts Medline pour la découverte de concepts en biologie moléculaire

Key Points

Key points are not available for this paper at this time.

Abstract

Nous présentons un algorithme pour le clustering de documents à grande échelle de textes biologiques, obtenu à partir des abstracts Medline. L'algorithme est basé sur un traitement statistique des termes, le stemming, l'idée d'une 'go-list', l'apprentissage machine non supervisé et l'optimisation de mise en page de graphes. La méthode est flexible et robuste, contrôlée par un petit nombre de valeurs de paramètres. Les expériences montrent que les clusters de documents résultants sont significatifs comme évalué par des termes spécifiques aux clusters. Malgré la nature statistique de l'approche, avec une analyse sémantique minimale, les termes fournissent une description superficielle du corpus de documents et soutiennent la découverte de concepts.

Textquest : Clustering de documents d'abstracts Medline pour la découverte de concepts en biologie moléculaire

Key Points

Abstract

Cite This Study