September 1, 2024

QGAN: 低フットプリントクォータニオンニューラルボコーダーによる音声合成

Key Points

Key points are not available for this paper at this time.

Abstract

ニューラルボコーダーは最近、拡散、フロー、トランスフォーマー、GANなどの手法の進展を利用して、優れた合成品質を達成するよう進化してきました。しかし、このようなモデルは、空間と時間の複雑さが大幅に増加しており、リソース制約シナリオにおける音声合成システムの展開に課題をもたらしています。これに対処するために、音質を損なうことなく、効率的で高忠実度の音声合成のための新しい低フットプリントクォータニオン生成的敵対的ネットワーク（QGAN）を提案します。QGANは、生成器内のクォータニオン畳み込みと修正されたマルチスケール/周期ディスクリミネーターを使用することで、従来のGANに対して構造的モデル圧縮を達成します。モデルの安定性を確保するために、クォータニオン領域での重み正規化も提案します。提案したQGANモデルの学習挙動の分析を提供するために、損失ランドスケープの視覚化を用いて、英語とヒンディー語のデータセットにおける大規模な実験でQGANの効果を示します。

Bookmark

QGAN: 低フットプリントクォータニオンニューラルボコーダーによる音声合成

Key Points

Abstract

Cite This Study