June 12, 2024Open Access

並列注意-畳み込みネットワークを用いた低複雑度音響シーン分類

Key Points

Key points are not available for this paper at this time.

Abstract

本研究は、DCASE2023チャレンジのタスク1に提出した改良システムです。私たちは、前処理、融合、グローバルおよびローカルの文脈情報抽出を含む4つのモジュールからなる並列注意-畳み込みネットワークによる低複雑度音響シーン分類の方法を提案します。提案したネットワークは、各音声クリップからグローバルおよびローカルの文脈情報を取得するのに計算効率が良いです。加えて、知識蒸留、データ拡張、適応残差正規化などの他の技術を私たちの方法に統合します。DCASE2023チャレンジの公式データセットで評価したところ、私たちの方法は56.10％の最高精度を達成し、パラメータ数は5.21キロ、累積演算は144万回です。これは、DCASE2023チャレンジの精度および複雑度において上位2システムを超えており、最先端の結果を得ています。コードは次のとおりです: https://github.com/Jessytan/Low-complexity-ASC.

並列注意-畳み込みネットワークを用いた低複雑度音響シーン分類

Key Points

Abstract

Cite This Study

Also Consider

Also Consider