June 15, 2024Open Access

아동 ASR의 벤치마크: 감독 및 자기 감독 음성 기초 모델 사용

Key Points

Key points are not available for this paper at this time.

Abstract

음성 기초 모델(SFMs)은 감독(e.g. Whisper) 또는 자기 감독 시스템(e.g. WavLM)에서 다양한 음성 작업에 대해 최첨단 결과를 달성했습니다. 그러나 아동 ASR을 위한 SFMs의 성능은 체계적으로 연구되지 않았습니다. 또한, 표준 평가를 통한 아동 ASR의 벤치마크가 없어서 새로운 아이디어들의 비교가 어렵습니다. 이 논문에서는 다양한 SFMs(Whisper, Wav2vec2.0, HuBERT, WavLM)를 기반으로 여러 아동 음성 데이터베이스에 대한 포괄적인 벤치마크를 시작하고 제시합니다. 또한, 다양한 데이터 증강 및 파라미터 효율적인 미세 조정(PEFT) 방법을 비교하여 미세 조정 전략을 조사합니다. 우리는 모델 크기가 증가할 때 이러한 방법의 동작이 다르다는 것을 관찰합니다. 예를 들어, PEFT는 대형 모델에 대해 전체 미세 조정과 동등한 성능을 보이지만 소형 모델에는 오히려 좋지 않습니다. 증강된 데이터를 사용한 미세 조정을 안정화하기 위해, 우리는 정규화로서 방 perturbation 불변 미세 조정(PIF) 손실을 제안합니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ruchao Fan

Microsoft (United States)

Natarajan Balaji Shankar

University of California, Los Angeles

Abeer Alwan

University of California, Los Angeles

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

아동 ASR의 벤치마크: 감독 및 자기 감독 음성 기초 모델 사용

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Also consider