March 18, 2024Open Access

DMEL: 学習可能な層としての微分可能なログメルスペクトログラム

Key Points

Key points are not available for this paper at this time.

Abstract

本論文では、音声分類のための微分可能なログメルスペクトログラム（DMEL）を提案します。DMELはガウシアンウィンドウを使用し、ウィンドウの長さは神経ネットワークと共に最適化できます。DMELは異なる神経ネットワークの入力層として使用され、標準音声データセットで評価されます。私たちは、DMELが固定ウィンドウ長のベースラインと比較して、ウィンドウ長の初期選択がサブ最適である場合に平均テスト精度が高いことを示します。さらに、DMELの計算コストを分析し、異なるウィンドウ長に対する標準的なハイパーパラメータ探索と比較し、DMELにとって有利な結果を示します。最後に、微分可能なスペクトログラムが最適なウィンドウ長を実際に学習するかどうかを調査するために、慎重に設計されたデータセットに対する経験的評価を行います。このデータセットの設計はスペクトログラム解像度の理論に基づいています。また、最適なウィンドウ長への収束速度を経験的に評価します。

DMEL: 学習可能な層としての微分可能なログメルスペクトログラム

Key Points

Abstract

Cite This Study

Also Consider

Also Consider