Key points are not available for this paper at this time.
Cet article décrit des recherches en cours sur l'application des techniques d'apprentissage non supervisé pour améliorer l'accès aux informations gouvernementales sur le Web. Sous l'égide du Projet GovStat (http://www.ils.unc.edu/govstat), notre objectif est d'identifier un petit nombre de concepts sémantiquement valides et mutuellement exclusifs qui couvrent adéquatement le domaine intellectuel d'un site Web. Bien qu'il s'agisse d'un cas classique du problème de clustering, la tâche est compliquée par la nature duale des relations terme-document. Puisque les documents sont définis dans l'espace de termes et vice versa, nous pouvons aborder cela comme un problème de clustering de documents ou de termes. La présente étude explore les implications de la poursuite de représentations centrées à la fois sur les termes et sur les documents. Sur la base des travaux initiaux, nous plaidons pour une approche basée sur le clustering de documents. En décrivant des recherches terminées, nous suggérons que le clustering de termes génère des catégories sémantiquement valides, mais que ces catégories ne sont pas suffisamment larges. Pour améliorer la couverture du clustering, nous décrivons un processus basé sur le clustering de documents.
Efron et al. (Mercredi) ont étudié cette question.