Key points are not available for this paper at this time.
文本复杂性评估是一项挑战性的任务,需要考虑各种语言学方面。文本的复杂性水平应与读者的能力相对应。过于复杂的文本可能难以理解,而过于简单的文本则可能无聊。多年来,简单特征被用来评估可读性,例如词语和句子的平均长度或词汇多样性。随着自然语言处理方法的发展,用于评估可读性的文本参数集显著扩大。近年来,许多文章的作者研究了各种词汇、形态学和句法特征对可读性水平的贡献。然而,由于方法和语料库相当多样,因此很难就语言信息在评估文本复杂性中的有效性得出普遍结论。此外,不同特征在各种数据集上的跨语言影响尚未得到研究。本研究的目的是对不同性质的特征进行大规模比较。我们实验性地评估了七种常用特征类型(可读性、传统特征、形态特征、标点、句法频率和主题建模)在六个语料库中对于英语和俄语的文本复杂性评估,采用了四种常见的机器学习模型:逻辑回归、随机森林、卷积神经网络和前馈神经网络。针对实验构建的一个语料库,即俄罗斯中学生阅读的小说文学语料库,通过大规模调查确保了标注的客观性。我们展示了哪些特征类型可以显著提高性能,并根据数据集特征、语言和数据来源分析了它们的影响.
莫罗佐夫等(星期三)研究了这个问题。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: