October 1, 2003

Implications du Problème de Représentation Récursive pour l'Identification Automatique des Concepts dans les Informations Gouvernementales en Ligne

Key Points

Key points are not available for this paper at this time.

Abstract

Cet article décrit des recherches en cours sur l'application des techniques d'apprentissage non supervisé pour améliorer l'accès aux informations gouvernementales sur le Web. Sous l'égide du Projet GovStat (http://www.ils.unc.edu/govstat), notre objectif est d'identifier un petit nombre de concepts sémantiquement valides et mutuellement exclusifs qui couvrent adéquatement le domaine intellectuel d'un site Web. Bien qu'il s'agisse d'un cas classique du problème de clustering, la tâche est compliquée par la nature duale des relations terme-document. Puisque les documents sont définis dans l'espace de termes et vice versa, nous pouvons aborder cela comme un problème de clustering de documents ou de termes. La présente étude explore les implications de la poursuite de représentations centrées à la fois sur les termes et sur les documents. Sur la base des travaux initiaux, nous plaidons pour une approche basée sur le clustering de documents. En décrivant des recherches terminées, nous suggérons que le clustering de termes génère des catégories sémantiquement valides, mais que ces catégories ne sont pas suffisamment larges. Pour améliorer la couverture du clustering, nous décrivons un processus basé sur le clustering de documents.

Bookmark

Implications du Problème de Représentation Récursive pour l'Identification Automatique des Concepts dans les Informations Gouvernementales en Ligne

Key Points

Abstract

Cite This Study