Key points are not available for this paper at this time.
Nous présentons un algorithme pour le clustering de documents à grande échelle de textes biologiques, obtenu à partir des abstracts Medline. L'algorithme est basé sur un traitement statistique des termes, le stemming, l'idée d'une 'go-list', l'apprentissage machine non supervisé et l'optimisation de mise en page de graphes. La méthode est flexible et robuste, contrôlée par un petit nombre de valeurs de paramètres. Les expériences montrent que les clusters de documents résultants sont significatifs comme évalué par des termes spécifiques aux clusters. Malgré la nature statistique de l'approche, avec une analyse sémantique minimale, les termes fournissent une description superficielle du corpus de documents et soutiennent la découverte de concepts.
Iliopoulos et al. (Fri,) ont étudié cette question.