Los puntos clave no están disponibles para este artículo en este momento.
Con técnicas avanzadas de redes neuronales, los modelos de lenguaje pueden generar contenido que parece genuinamente creado por humanos. Este progreso avanzado beneficia a la sociedad de muchas maneras. Sin embargo, también puede traernos amenazas que no hemos visto antes. Un detector de texto neural es un modelo de clasificación que separa el texto generado por máquinas del escrito por humanos. Desafortunadamente, un detector de texto neural preentrenado puede ser vulnerable a ataques adversariales, que buscan engañar al detector para que tome decisiones de clasificación incorrectas. A través de este trabajo, proponemos μAttacking, un marco general basado en mutaciones que puede ser utilizado para evaluar sistemáticamente la robustez de los detectores de texto neuronales. Nuestros experimentos demuestran que μAttacking identifica efectivamente los fallos del detector. Inspirados por la información perspicaz revelada por μAttacking, también proponemos una estrategia de RR-training, un método directo pero efectivo para mejorar la robustez de los detectores de texto neuronales a través del ajuste fino. Comparado con el método normal de ajuste fino, nuestros experimentos demostraron que RR-training aumentó efectivamente la robustez del modelo en hasta un 11.33% sin aumentar mucho el esfuerzo al ajustar un detector de texto neural. Creemos que μAttacking y RR-training son herramientas útiles para desarrollar y evaluar modelos de lenguaje neuronales.
Liang et al. (Fri,) estudiaron esta cuestión.