Key points are not available for this paper at this time.
Sprach-Foundation-Modelle (SFMs) haben in beaufsichtigten (z.B. Whisper) oder selbstüberwachten Systemen (z.B. WavLM) erstklassige Ergebnisse für verschiedene Sprachaufgaben erzielt. Die Leistungsfähigkeit von SFMs für die ASR von Kindern wurde jedoch nicht systematisch untersucht. Darüber hinaus gibt es keinen Benchmark für die ASR von Kindern mit standardisierten Bewertungen, was die Vergleiche neuer Ideen erschwert. In dieser Arbeit initiieren und präsentieren wir einen umfassenden Benchmark auf mehreren Sprachdatenbanken von Kindern, basierend auf verschiedenen SFMs (Whisper, Wav2vec2.0, HuBERT und WavLM). Darüber hinaus untersuchen wir Strategien zur Feinabstimmung, indem wir verschiedene Methoden zur Datenaugmentation und parameter-effizienten Feinabstimmung (PEFT) vergleichen. Wir beobachten, dass sich das Verhalten dieser Methoden verändert, wenn die Modellsgröße zunimmt. Zum Beispiel entspricht PEFT der Leistung der vollständigen Feinabstimmung für große Modelle, aber schlechter für kleine Modelle. Um die Feinabstimmung mit augmentierten Daten zu stabilisieren, schlagen wir einen störungsinvarianten Feinabstimmungsverlust (PIF) als Regularisierung vor.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ruchao Fan
Microsoft (United States)
Natarajan Balaji Shankar
University of California, Los Angeles
Abeer Alwan
University of California, Los Angeles
Building similarity graph...
Analyzing shared references across papers
Loading...
Fan et al. (Sat,) haben diese Frage untersucht.
synapsesocial.com/papers/68e64a00b6db6435875dadfa — DOI: https://doi.org/10.48550/arxiv.2406.10507
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: