June 28, 2024Open Access

異なるスクリプトを用いる多言語事前学習言語モデルのスクリプトバリアを打破する音訳に基づく事後トレーニング整列

Key Points

Key points are not available for this paper at this time.

Abstract

多言語事前学習モデル (mPLMs) は、クロスリンガルトランスファータスクにおいて印象的なパフォーマンスを示しています。しかし、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、たとえ両言語が関連しているか語彙の一部を共有していても、トランスファーパフォーマンスはしばしば妨げられます。この問題に対処するために音訳を利用した最近の研究に触発されて、本論文では、異なるスクリプトを使用する言語間のクロスリンガル整列を改善することを目指す音訳に基づく事後事前トレーニング整列 (PPA) の手法を提案します。私たちは、地中海-アムハラ語-ファルシ語と南+東アジア言語の2つの区域言語グループを選びます。これらの言語は相互に影響を与えますが、異なるスクリプトを使用しています。私たちはこの方法をこれらの言語グループに適用し、さまざまな下流タスクに対して広範な実験を実施します。結果は、PPA 後にモデルが元のモデルを一貫して上回ることを示しています（いくつかのタスクでは最大 50%）。さらに、英語以外の言語をトランスファーのソースとして使用する場合、私たちの手法はさらに大きな改善を得ることができます。私たちはコードとモデルを https://github.com/cisnlp/Transliteration-PPA で公開します。

Read Full Paperexternally

AIに質問

Bookmark

View Full Paper

AIに質問

Bookmark

View Full Paper

異なるスクリプトを用いる多言語事前学習言語モデルのスクリプトバリアを打破する音訳に基づく事後トレーニング整列

Key Points

Abstract

Cite This Study

Also Consider

Also Consider

異なるスクリプトを用いる多言語事前学習言語モデルのスクリプトバリアを打破する 音訳に基づく事後トレーニング整列

Key Points

Abstract

Cite This Study

Also Consider

Also Consider

異なるスクリプトを用いる多言語事前学習言語モデルのスクリプトバリアを打破する音訳に基づく事後トレーニング整列