Key points are not available for this paper at this time.
有效地规范文本数据是一项相当大的挑战,尤其是对缺乏标准化书写系统的低资源语言。在本研究中,我们对来自几个奥克西坦方言的数据进行了多语言模型的微调,并进行了系列实验以评估该模型对这些方言的表征。为了评估目的,我们编译了一个包含四个奥克西坦方言的平行词典。模型嵌入的内在评估表明,方言之间的表面相似性加强了表征。当模型进一步为词性标注和通用依赖解析进行微调时,其对方言变异的表现依然稳健,即使仅在单一方言的词性数据上训练。我们的研究结果表明,大型多语言模型在预处理过程中可以最小化拼写规范化的需求。
Hopton等人(星期二)研究了这个问题。