Los puntos clave no están disponibles para este artículo en este momento.
La clasificación de toxicidad para la voz se basa en gran medida en el contenido semántico del habla. Proponemos un marco novedoso que utiliza el aprendizaje multimodal para integrar la representación semántica del texto en un clasificador de toxicidad de voz multi-etiqueta durante el entrenamiento. Esto nos permite incorporar información textual durante el entrenamiento mientras que solo se requiere audio durante la inferencia. Evaluamos este clasificador en conjuntos de datos a gran escala con características del mundo real para validar la eficacia de este marco. A través de estudios de ablación, demostramos que las representaciones semánticas de texto de propósito general son ricas y están alineadas con el habla para fines de clasificación de toxicidad. Al realizar experimentos en múltiples idiomas a gran escala, mostramos mejoras en la clasificación de toxicidad vocal en cinco idiomas y diferentes categorías de toxicidad.
Liu et al. (Sun,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: