September 1, 2024Open Access

Mejorando la Detección de Toxicidad Vocal Multilingüe con Alineación de Voz y Texto

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

La clasificación de toxicidad para la voz se basa en gran medida en el contenido semántico del habla. Proponemos un marco novedoso que utiliza el aprendizaje multimodal para integrar la representación semántica del texto en un clasificador de toxicidad de voz multi-etiqueta durante el entrenamiento. Esto nos permite incorporar información textual durante el entrenamiento mientras que solo se requiere audio durante la inferencia. Evaluamos este clasificador en conjuntos de datos a gran escala con características del mundo real para validar la eficacia de este marco. A través de estudios de ablación, demostramos que las representaciones semánticas de texto de propósito general son ricas y están alineadas con el habla para fines de clasificación de toxicidad. Al realizar experimentos en múltiples idiomas a gran escala, mostramos mejoras en la clasificación de toxicidad vocal en cinco idiomas y diferentes categorías de toxicidad.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo