April 30, 2024Open Access

建模奥克西坦方言的正字法变异

Key Points

Key points are not available for this paper at this time.

Abstract

有效地规范文本数据是一项相当大的挑战，尤其是对缺乏标准化书写系统的低资源语言。在本研究中，我们对来自几个奥克西坦方言的数据进行了多语言模型的微调，并进行了系列实验以评估该模型对这些方言的表征。为了评估目的，我们编译了一个包含四个奥克西坦方言的平行词典。模型嵌入的内在评估表明，方言之间的表面相似性加强了表征。当模型进一步为词性标注和通用依赖解析进行微调时，其对方言变异的表现依然稳健，即使仅在单一方言的词性数据上训练。我们的研究结果表明，大型多语言模型在预处理过程中可以最小化拼写规范化的需求。

Read Full Paperexternally

问 AI

Bookmark

View Full Paper

Cite This Study

Hopton等人（星期二）研究了这个问题。

synapsesocial.com/papers/68e6cdf2b6db64358764bd2b https://doi.org/https://doi.org/10.48550/arxiv.2404.19315

问 AI

Bookmark

View Full Paper