June 15, 2024Open Access

Benchmarking der ASR von Kindern mit beaufsichtigten und selbstüberwachten Sprach-Foundation-Modellen

Key Points

Key points are not available for this paper at this time.

Abstract

Sprach-Foundation-Modelle (SFMs) haben in beaufsichtigten (z.B. Whisper) oder selbstüberwachten Systemen (z.B. WavLM) erstklassige Ergebnisse für verschiedene Sprachaufgaben erzielt. Die Leistungsfähigkeit von SFMs für die ASR von Kindern wurde jedoch nicht systematisch untersucht. Darüber hinaus gibt es keinen Benchmark für die ASR von Kindern mit standardisierten Bewertungen, was die Vergleiche neuer Ideen erschwert. In dieser Arbeit initiieren und präsentieren wir einen umfassenden Benchmark auf mehreren Sprachdatenbanken von Kindern, basierend auf verschiedenen SFMs (Whisper, Wav2vec2.0, HuBERT und WavLM). Darüber hinaus untersuchen wir Strategien zur Feinabstimmung, indem wir verschiedene Methoden zur Datenaugmentation und parameter-effizienten Feinabstimmung (PEFT) vergleichen. Wir beobachten, dass sich das Verhalten dieser Methoden verändert, wenn die Modellsgröße zunimmt. Zum Beispiel entspricht PEFT der Leistung der vollständigen Feinabstimmung für große Modelle, aber schlechter für kleine Modelle. Um die Feinabstimmung mit augmentierten Daten zu stabilisieren, schlagen wir einen störungsinvarianten Feinabstimmungsverlust (PIF) als Regularisierung vor.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ruchao Fan

Microsoft (United States)

Natarajan Balaji Shankar

University of California, Los Angeles

Abeer Alwan

University of California, Los Angeles

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Benchmarking der ASR von Kindern mit beaufsichtigten und selbstüberwachten Sprach-Foundation-Modellen

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Also consider