Key points are not available for this paper at this time.
Die meisten Themenmodelle definieren ein Dokument als eine Mischung aus Themen und jedes Thema als eine Mischung aus Wörtern. Im Allgemeinen besteht der Unterschied in generativen Themenmodellen darin, wie diese Mischungen von Themen erzeugt werden. Wir schlagen vor, Themenmodelle auf eine neue Weise zu betrachten, nämlich als Themen-Rausch-Modelle. Unser Themen-Rausch-Modell definiert ein Dokument als eine Mischung aus Themen und Rauschen. Der Topic Noise Discriminator (TND) schätzt sowohl die Themen- als auch die Rauschverteilungen und nutzt dabei nicht nur die Beziehungen zwischen Wörtern in Dokumenten, sondern auch die linguistischen Beziehungen, die durch Wort-Embeddings gefunden werden. Diese Art von Modell ist wichtig für kurze, spärliche Social-Media-Beiträge, die sowohl zufälliges als auch nicht-zufälliges Rauschen enthalten. Außerdem verstehen wir, dass die Qualität der Themen subjektiv ist und dass Forscher Präferenzen haben können. Daher schlagen wir eine Variante unseres Modells vor, die die vortrainierte Rauschverteilung von TND in einem Ensemble mit jedem generativen Themenmodell kombiniert, um Rauschwörter herauszufiltern und kohärentere und vielfältigere Themenmengen zu produzieren. Wir präsentieren diesen Ansatz unter Verwendung der Latent Dirichlet Allocation (LDA) und zeigen, dass es effektiv ist, die Qualität der LDA-Themen hoch zu halten, während Rauschen innerhalb dieser entfernt wird. Schließlich zeigen wir den Wert der Verwendung einer kontext-spezifischen Rauschliste, die aus TND generiert wurde, um Rauschen statisch zu entfernen, nachdem Themen von einem beliebigen Themenmodell, einschließlich nicht-generativen, erzeugt wurden. Wir demonstrieren die Wirksamkeit all dieser drei Ansätze, die explizit kontext-spezifisches Rauschen in Dokumentensammlungen modellieren.
Churchill et al. (Mittw,) haben diese Frage untersucht.