私たちは、オラクルスピーカラベルや時間境界なしで生の音声から直接マルチスピーカー自動音声認識を行うことを目指すMLC-SLMチャレンジのタスク2のためのDKUシステムを紹介します。私たちのアプローチは、スピーカー埋め込みと時間発話境界をQwen2.5ベースの大規模言語モデル(LLM)に統合するダイアライゼーション意識のフレームワークに基づいています。次に、LLMデコーダ内で言語特有のアダプタとLoRAモジュールをファインチューニングすることで、システムの多言語性能を強化します。最終的に、私たちのシステムはMLC-SLMデータセットの開発セットとテストセットでtcpWERをそれぞれ23.56\%と18.08\%達成し、公式ベースラインを大幅に上回りました。
Lin et al. (Sun,) がこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: