Key points are not available for this paper at this time.
個人音声活動検出(PVAD)は、音声アシスタントで徐々に使用されるようになっています。従来のPVADスキームは、既存のクエリ参照音声から、事前に学習したスピーカー検証モデルを通じてターゲットスピーカーの埋め込みを抽出します。その結果、抽出されたスピーカー埋め込みの品質が低い場合、特にウェイクワード音声のみを参照として利用する場合、PVADモデルの性能が損なわれる可能性があります。本研究では、新しく効率的なPVADモデルを紹介します。事前に学習したスピーカー検証モデルから抽出されたスピーカー埋め込みに依存する従来のアプローチとは対照的に、提案する手法は、参照音声の生のフレームレベルの特徴をターゲットスピーカーの属性として直接使用します。このようにして、提案モデルは音声アシスタントアプリケーションにとって重要な超高いリコール率を達成します。実験結果は、既存のクエリ音声またはウェイクワード音声を参照として使用した場合の提案手法の有効性を示しています。
Zengら(Mon,)はこの問題を研究しました。