Key points are not available for this paper at this time.
Detectar discurso de ódio e linguagem ofensiva é essencial para manter um ambiente digital seguro e respeitoso. Este estudo examina as limitações dos modelos de linguagem de última geração (LLMs) na identificação de conteúdo ofensivo dentro de dados sistematicamente perturbados, com foco no chinês, uma língua particularmente suscetível a tais perturbações. Apresentamos o ToxiCloakCN, um conjunto de dados aprimorado derivado do ToxiCN, aumentado com substituições homofônicas e transformações de emoji, para testar a robustez dos LLMs contra essas perturbações de camuflagem. Nossas descobertas revelam que os modelos existentes têm um desempenho significativamente inferior na detecção de conteúdo ofensivo quando essas perturbações são aplicadas. Fornecemos uma análise aprofundada de como diferentes tipos de conteúdo ofensivo são afetados por essas perturbações e exploramos a correspondência entre as explicações humanas e as dos modelos sobre ofensa. Nosso trabalho destaca a necessidade urgente de técnicas mais avançadas na detecção de linguagem ofensiva para combater as táticas em evolução usadas para evadir os mecanismos de detecção.
Xiao et al. (Mon,) estudaram esta questão.