What type of study is this?

This is a Quantitative Study study.

October 2, 2025Open Access

MLC-SLMチャレンジにおけるマルチスピーカー自動音声認識のためのDKUシステム

Key Points

システムは開発セットでtcpWERを23.56%達成し、精度の大幅な向上を示しています。
言語特有のアダプタをファインチューニングし、LoRAモジュールを使用することでLLMの多言語性能が強化されます。
スピーカー埋め込みを統合したダイアライゼーション意識のフレームワークにより、生の音声におけるスピーカーの正確な識別が保証されます。
チャレンジで報告された公式ベースライン指標と比較して、実質的な性能向上が達成されます。

Abstract

私たちは、オラクルスピーカラベルや時間境界なしで生の音声から直接マルチスピーカー自動音声認識を行うことを目指すMLC-SLMチャレンジのタスク2のためのDKUシステムを紹介します。私たちのアプローチは、スピーカー埋め込みと時間発話境界をQwen2.5ベースの大規模言語モデル（LLM）に統合するダイアライゼーション意識のフレームワークに基づいています。次に、LLMデコーダ内で言語特有のアダプタとLoRAモジュールをファインチューニングすることで、システムの多言語性能を強化します。最終的に、私たちのシステムはMLC-SLMデータセットの開発セットとテストセットでtcpWERをそれぞれ23.56\%と18.08\%達成し、公式ベースラインを大幅に上回りました。

MLC-SLMチャレンジにおけるマルチスピーカー自動音声認識のためのDKUシステム

Key Points

Abstract

Cite This Study

Also Consider

Also Consider