March 28, 2011

Ein Wort nach dem anderen

Key Points

Key points are not available for this paper at this time.

Abstract

Die Berechnung des Grades der semantischen Verwandtschaft von Wörtern ist eine zentrale Funktion vieler Sprachanwendungen wie Suche, Clustering und Disambiguierung. Frühere Ansätze zur Berechnung der semantischen Verwandtschaft verwendeten hauptsächlich statische Sprachressourcen und ignorierten weitgehend deren zeitliche Aspekte. Wir glauben, dass eine erhebliche Menge an Verwandtschaftsinformationen auch durch das Studium von Mustern der Wortverwendung über die Zeit gefunden werden kann. Betrachten Sie beispielsweise ein Zeitungsarchiv, das sich über viele Jahre erstreckt. Zwei Wörter wie „Krieg“ und „Frieden“ könnten selten in denselben Artikeln zusammen auftreten, dennoch könnten ihre Verwendungsmuster über die Zeit ähnlich sein. In diesem Papier schlagen wir ein neues Modell der semantischen Verwandtschaft vor, die Temporale Semantische Analyse (TSA), das diese zeitlichen Informationen erfasst. Die bisherige Methode des Standes der Technik, die Explizite Semantische Analyse (ESA), stellte die Semantik von Wörtern als Vektor von Konzepten dar. TSA verwendet eine verfeinerte Darstellung, bei der jedes Konzept nicht mehr skalar ist, sondern stattdessen als Zeitreihe über einen Korpus von zeitlich geordneten Dokumenten dargestellt wird. Soweit wir wissen, ist dies der erste Versuch, temporale Beweise in Modelle der semantischen Verwandtschaft einzubeziehen. Empirische Bewertungen zeigen, dass TSA konsistente Verbesserungen gegenüber den Ergebnissen der state of the art ESA auf mehreren Benchmarks bietet.

Bookmark

Ein Wort nach dem anderen

Key Points

Abstract

Cite This Study