What type of study is this?

This is a Quantitative Study study.

October 16, 2025Open Access

スケーラブルな非侵襲的音声品質評価のためのLLMの活用

Key Points

LLMラベル付きトレーニングは、人間のラベルと比較して混合結果にもかかわらず、音声品質評価において期待が持てます。
二段階アプローチは一般化性能を向上させ、DNSMOS Proは特定のデータセットで0.63のPCCを達成しています。
トレーニングデータの制限に対処するため、101,129の音声クリップを使用してLibriAugmentedデータセットが作成されました。
大規模言語モデルの活用は、SQAにおけるデータ制約の課題に対するコスト効率の良い解決策を提供します。

Abstract

非侵襲的音声品質評価（SQA）システムは、限られたトレーニングデータと高コストの人間によるアノテーションに苦しんでおり、リアルタイム会議通話への一般化を妨げています。本研究では、音声品質の疑似評価者として大規模言語モデル（LLM）を活用することで、これらのデータボトルネックに対処することを提案します。101,129の音声クリップで構成され、微調整された聴覚LLM（Vicuna-7b-v1.5）によってラベル付けされたシミュレーションされた劣化を含むLibriAugmentedというデータセットを構築しました。人間ラベル付きデータの使用、LLMラベル付きデータの使用、二段階アプローチ（LLMラベルでの事前学習、人間ラベルでのファインチューニング）の3つのトレーニング戦略を比較し、DNSMOS ProとDeePMOSの両方を使用しました。複数の言語および品質劣化にわたるいくつかのデータセットでテストを行いました。LLMラベル付きトレーニングは人間ラベル付きトレーニングと比較して混合結果をもたらしますが、二段階アプローチが一般化性能を向上させることを示す経験的証拠を提供します（例：DNSMOS ProはNISQATESTLIVETALKで0.63対0.55のPCC、Tencentでの反響音で0.73対0.65のPCCを達成）。私たちの発見は、音声品質評価のためのスケーラブルな疑似評価者としてLLMを使用する可能性を示し、データ制約の問題に対するコスト効率の良い解決策を提供します。

スケーラブルな非侵襲的音声品質評価のためのLLMの活用

Key Points

Abstract

Cite This Study