April 1, 2024Open Access

インドネシアの地方言語のための低リソースおよび過小評価された並列データセットの構築と拡張

Key Points

Key points are not available for this paper at this time.

Abstract

インドネシアでは、地方言語が文化において重要な役割を果たしています。しかし、利用可能なインドネシア語リソースは依然として自然言語処理（NLP）分野の限られたデータに該当しています。これは、これらの言語のためのNLPモデルを構築する際に問題となります。このギャップを解消するために、我々は5つのインドネシア地方言語を特集した多言語並列コーパスであるBhinneka Korpusを導入します。我々の目標は、これらのリソースへのアクセスと利用を向上させ、国内での浸透を広げることです。データセット収集プロセスと関連する課題を詳細に説明しました。さらに、データ制約のためにIBM Model 1を使用した翻訳タスクの実験を行いました。その結果、各言語のパフォーマンスはさらなる発展のための良い兆候を示しています。語彙の変動、スムージング効果、および言語間の変動といった課題が議論されています。低リソース言語向けの高度なNLP技術を用いてコーパスを評価し、多言語翻訳モデルへの道を開くことを目指しています。

インドネシアの地方言語のための低リソースおよび過小評価された並列データセットの構築と拡張

Key Points

Abstract

Cite This Study