非侵襲的音声品質評価(SQA)システムは、限られたトレーニングデータと高コストの人間によるアノテーションに苦しんでおり、リアルタイム会議通話への一般化を妨げています。本研究では、音声品質の疑似評価者として大規模言語モデル(LLM)を活用することで、これらのデータボトルネックに対処することを提案します。101,129の音声クリップで構成され、微調整された聴覚LLM(Vicuna-7b-v1.5)によってラベル付けされたシミュレーションされた劣化を含むLibriAugmentedというデータセットを構築しました。人間ラベル付きデータの使用、LLMラベル付きデータの使用、二段階アプローチ(LLMラベルでの事前学習、人間ラベルでのファインチューニング)の3つのトレーニング戦略を比較し、DNSMOS ProとDeePMOSの両方を使用しました。複数の言語および品質劣化にわたるいくつかのデータセットでテストを行いました。LLMラベル付きトレーニングは人間ラベル付きトレーニングと比較して混合結果をもたらしますが、二段階アプローチが一般化性能を向上させることを示す経験的証拠を提供します(例:DNSMOS ProはNISQATESTLIVETALKで0.63対0.55のPCC、Tencentでの反響音で0.73対0.65のPCCを達成)。私たちの発見は、音声品質評価のためのスケーラブルな疑似評価者としてLLMを使用する可能性を示し、データ制約の問題に対するコスト効率の良い解決策を提供します。
Cumlin et al. (Fri,) はこの問題を研究しました。