July 19, 2024Open Access

Captioning de audio eficiente con destilación de conocimiento a nivel de codificador

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Se ha logrado una mejora significativa en la captioning de audio automatizada (AAC) con modelos recientes. Sin embargo, estos modelos se han vuelto cada vez más grandes a medida que se mejora su rendimiento. En este trabajo, proponemos un marco de destilación de conocimiento (KD) para AAC. Nuestro análisis muestra que en los modelos de AAC basados en codificador-decodificador, es más efectivo destilar conocimiento en el codificador en comparación con el decodificador. Con este fin, incorporamos la pérdida de KD a nivel de codificador en el entrenamiento, además de la pérdida supervisada estándar y la pérdida de KD a nivel de secuencia. Investigamos dos métodos de KD a nivel de codificador, basados en la pérdida de error cuadrático medio (MSE) y en la pérdida contrastiva, respectivamente. Los resultados experimentales demuestran que la KD contrastiva es más robusta que la KD MSE, exhibiendo un rendimiento superior en situaciones con escasez de datos. Al aprovechar datos solo de audio en el entrenamiento dentro del marco de KD, nuestro modelo estudiante logra un rendimiento competitivo, con una velocidad de inferencia que es 19 veces más rápida. Una demostración en línea está disponible en https://huggingface.co/spaces/wsntxxn/efficientₐudiocaptioning.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo