Key points are not available for this paper at this time.
Avec la croissance rapide des applications Web sociales telles que Twitter et les publicités en ligne, la tâche de comprendre les courts textes devient de plus en plus importante. La plupart des techniques traditionnelles d'exploration de texte sont conçues pour traiter des documents de long texte. Pour les messages courts, beaucoup des techniques existantes ne sont pas efficaces en raison de la rareté des représentations textuelles. Pour comprendre les courts messages, nous observons qu'il est souvent possible de trouver des textes longs liés thématiquement, qui peuvent être utilisés comme données auxiliaires lors de l'exploration des données de courts textes cibles. Dans cet article, nous présentons une nouvelle approche pour regrouper les messages de courts textes via l'apprentissage par transfert à partir de données de longs textes auxiliaires. Nous montrons que bien que certains travaux précédents existent qui améliorent le regroupement de courts textes avec des textes longs liés, la plupart d'entre eux ignorent les incohérences sémantiques et thématiques entre les données cibles et auxiliaires et nuisent aux performances de regroupement. Pour prendre en compte la possible incohérence entre les données source et cible, nous proposons un nouveau modèle thématique - le modèle d'Allocation de Dirichlet Latente Duale (DLDA), qui apprend conjointement deux ensembles de sujets sur les textes courts et longs et couple les paramètres thématiques pour faire face à l'incohérence potentielle entre les ensembles de données. Nous démontrons à travers des expériences de regroupement à grande échelle sur les publicités et les données Twitter que nous pouvons obtenir des performances supérieures par rapport à plusieurs techniques à la pointe de la technologie pour le regroupement de documents de courts textes.
Jin et al. (Mon,) ont étudié cette question.