Key points are not available for this paper at this time.
この論文は、スウェーデン国立図書館(KB)のデータ駆動研究のためにKBLabによって開発されたスウェーデンBERT("KB-BERT")を紹介します。英語以外の言語向けにトランスフォーマーベースのBERTモデルを作成する最近の取り組みに基づき、KBのコレクションを使用してスウェーデン語の新しい言語特化型BERTモデルを作成し、訓練しました。また、既存のモデル - 主にスウェーデン公共雇用サービスであるArbetsförmedlingenとGoogleの多言語M-BERT - と比較した我々のモデルの結果を提示し、KB-BERTが名前付きエンティティ認識(NER)から品詞タグ付け(POS)までの様々なNLPタスクでこれらのモデルを上回ることを示します。我々の議論は、スウェーデン語のような小規模言語のための訓練データとテストベッドが不足しているために依然として存在する困難を強調します。さらなる探査と研究のために、私たちのモデルをこちらで公開します: https://github.com/Kungbib/swedish-bert-models 。
Malmsten et al.(Fri)はこの問題を研究しました。