Los puntos clave no están disponibles para este artículo en este momento.
Los modelos de fundamentos del habla (SFMs) han logrado resultados de vanguardia para diversas tareas de habla en sistemas supervisados (por ejemplo, Whisper) o autosupervisados (por ejemplo, WavLM). Sin embargo, el rendimiento de los SFMs para ASR infantil no ha sido estudiado sistemáticamente. Además, no hay un punto de referencia para ASR infantil con evaluaciones estándar, lo que dificulta las comparaciones de ideas novedosas. En este artículo, iniciamos y presentamos un punto de referencia completo en varias bases de datos de habla infantil basadas en varios SFMs (Whisper, Wav2vec2.0, HuBERT y WavLM). Además, investigamos estrategias de ajuste fino comparando varios métodos de augmentación de datos y ajuste fino eficiente en parámetros (PEFT). Observamos que los comportamientos de estos métodos son diferentes cuando aumenta el tamaño del modelo. Por ejemplo, PEFT iguala el rendimiento del ajuste fino completo para modelos grandes pero es peor para modelos pequeños. Para estabilizar el ajuste fino utilizando datos aumentados, proponemos una pérdida de ajuste fino invariante a la perturbación (PIF) como regularización.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ruchao Fan
Microsoft (United States)
Natarajan Balaji Shankar
University of California, Los Angeles
Abeer Alwan
University of California, Los Angeles
Building similarity graph...
Analyzing shared references across papers
Loading...
Fan et al. (Sat,) estudiaron esta cuestión.
synapsesocial.com/papers/68e64a00b6db6435875dadfa — DOI: https://doi.org/10.48550/arxiv.2406.10507
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: