Key points are not available for this paper at this time.
음성 기초 모델(SFMs)은 감독(e.g. Whisper) 또는 자기 감독 시스템(e.g. WavLM)에서 다양한 음성 작업에 대해 최첨단 결과를 달성했습니다. 그러나 아동 ASR을 위한 SFMs의 성능은 체계적으로 연구되지 않았습니다. 또한, 표준 평가를 통한 아동 ASR의 벤치마크가 없어서 새로운 아이디어들의 비교가 어렵습니다. 이 논문에서는 다양한 SFMs(Whisper, Wav2vec2.0, HuBERT, WavLM)를 기반으로 여러 아동 음성 데이터베이스에 대한 포괄적인 벤치마크를 시작하고 제시합니다. 또한, 다양한 데이터 증강 및 파라미터 효율적인 미세 조정(PEFT) 방법을 비교하여 미세 조정 전략을 조사합니다. 우리는 모델 크기가 증가할 때 이러한 방법의 동작이 다르다는 것을 관찰합니다. 예를 들어, PEFT는 대형 모델에 대해 전체 미세 조정과 동등한 성능을 보이지만 소형 모델에는 오히려 좋지 않습니다. 증강된 데이터를 사용한 미세 조정을 안정화하기 위해, 우리는 정규화로서 방 perturbation 불변 미세 조정(PIF) 손실을 제안합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ruchao Fan
Microsoft (United States)
Natarajan Balaji Shankar
University of California, Los Angeles
Abeer Alwan
University of California, Los Angeles
Building similarity graph...
Analyzing shared references across papers
Loading...
Fan et al. (Sat,)는 이 질문을 연구했습니다.
synapsesocial.com/papers/68e64a00b6db6435875dadfa — DOI: https://doi.org/10.48550/arxiv.2406.10507
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: