February 20, 2025Open Access

Sobre el seguimiento continuo de los orígenes del texto generado por LLM y su aplicación en la detección de trampas en el trabajo académico de los estudiantes

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los modelos de lenguaje grande (LLMs) han demostrado capacidades notables en la generación de texto, lo que también genera numerosas preocupaciones sobre su posible uso indebido, especialmente en ejercicios educativos y redacción académica. Identificar y rastrear con precisión los orígenes del contenido generado por LLM es crucial para la responsabilidad y la transparencia, asegurando el uso responsable de los LLM en entornos educativos y académicos. Los métodos anteriores utilizan clasificadores binarios para discriminar si un texto fue escrito por un humano o generado por un LLM específico o emplean clasificadores de múltiples clases para rastrear el LLM fuente de un conjunto fijo. Sin embargo, estos métodos están restringidos a uno o varios LLM preespecificados y no pueden generalizar a nuevos LLM que están continuamente surgiendo. Este estudio formula el rastreo del LLM fuente de manera incremental en un aprendizaje constante (CIL), donde nuevos LLM surgen continuamente, y un modelo aprende incrementalmente a identificar nuevos LLM sin olvidar los antiguos. Se elabora además un método de aprendizaje continuo sin entrenamiento para la tarea, cuya idea es extraer continuamente prototipos para los nuevos LLM, utilizando un codificador congelado, y luego realizar el rastreo de origen mediante coincidencia de prototipos después de un delicado proceso de decorrelación. Para la evaluación, se construyen dos conjuntos de datos, uno en inglés y otro en chino. Estos conjuntos de datos simulan un escenario donde seis LLM emergen con el tiempo y se utilizan para generar ensayos de estudiantes, y un detector de LLM debe expandir incrementamente su alcance de reconocimiento a medida que aparecen nuevos LLM. Los resultados experimentales muestran que el método propuesto logra una precisión media del 97.04% en el conjunto de datos en inglés y del 91.23% en el conjunto de datos en chino. Estos resultados validan la viabilidad del rastreo continuo de origen del texto generado por LLM y verifican su efectividad en la detección de trampas en el trabajo académico de los estudiantes.

Me gusta

Guardar

Ver artículo completo