June 29, 2022Open Access

文本复杂性及其语言特征：英语和俄语中的相关性

Key Points

Key points are not available for this paper at this time.

Abstract

文本复杂性评估是一项挑战性的任务，需要考虑各种语言学方面。文本的复杂性水平应与读者的能力相对应。过于复杂的文本可能难以理解，而过于简单的文本则可能无聊。多年来，简单特征被用来评估可读性，例如词语和句子的平均长度或词汇多样性。随着自然语言处理方法的发展，用于评估可读性的文本参数集显著扩大。近年来，许多文章的作者研究了各种词汇、形态学和句法特征对可读性水平的贡献。然而，由于方法和语料库相当多样，因此很难就语言信息在评估文本复杂性中的有效性得出普遍结论。此外，不同特征在各种数据集上的跨语言影响尚未得到研究。本研究的目的是对不同性质的特征进行大规模比较。我们实验性地评估了七种常用特征类型（可读性、传统特征、形态特征、标点、句法频率和主题建模）在六个语料库中对于英语和俄语的文本复杂性评估，采用了四种常见的机器学习模型：逻辑回归、随机森林、卷积神经网络和前馈神经网络。针对实验构建的一个语料库，即俄罗斯中学生阅读的小说文学语料库，通过大规模调查确保了标注的客观性。我们展示了哪些特征类型可以显著提高性能，并根据数据集特征、语言和数据来源分析了它们的影响.

Bookmark

View Full Paper