N-gram IDF

Key Points

Key points are not available for this paper at this time.

Abstract

本文首先揭示了逆文档频率（IDF）这一全局术语加权方案与信息距离这一由Kolmogorov复杂度定义的通用度量之间的关系。我们具体给出了一个理论解释，即一个术语的IDF等于该术语与空字符串之间在信息距离空间中的距离，该空间中Kolmogorov复杂度使用网页文档和Shannon-Fano编码进行了近似。基于我们的发现，我们提出了N-gram IDF，这是一种理论扩展IDF的方法，用于处理任何长度的单词和短语。通过比较任何N的N-gram之间的权重，N-gram IDF使我们能够在重叠的N-gram中确定主导的N-gram，并从文本中提取任何长度的关键术语，而无需使用任何NLP技术。为了高效计算所有可能的N-gram的权重，我们采用了两种字符串处理技术，即使用增强后缀数组进行最大子字符串提取和使用小波树进行文档列表。我们在关键术语抽取和网页搜索查询分段上进行了实验，发现N-gram IDF与为每个应用设计的最先进方法相比具有竞争力，这些方法使用了额外的资源和努力。结果体现了N-gram IDF的潜力。

Bookmark

N-gram IDF

Key Points

Abstract

Cite This Study