Los modelos de lenguaje grandes (LLMs) tienen huellas estilísticas distintas y consistentes, incluso cuando se les pide que escriban en diferentes estilos de escritura. Detectar estas huellas es importante por muchas razones, entre ellas, proteger la propiedad intelectual, garantizar la transparencia respecto al contenido generado por IA y prevenir el mal uso de las tecnologías de IA. En este documento, presentamos un método novedoso para clasificar textos basado en las huellas estilísticas de los modelos que los generaron. Introducimos un conjunto de detección de LLM que está compuesto por tres clasificadores con arquitecturas y datos de entrenamiento variados. Este conjunto se entrena para clasificar textos generados por cuatro familias de LLM bien conocidas: Claude, Gemini, Llama y OpenAI. Como esta tarea es altamente sensible a los costos y puede tener implicaciones severas, queremos minimizar los falsos positivos y aumentar la confianza. Consideramos una predicción como válida cuando los tres clasificadores del conjunto están de acuerdo unánimemente sobre la clasificación de salida. Nuestro conjunto se valida en un conjunto de prueba de textos generados por los modelos de Claude, Gemini, Llama y OpenAI, y alcanza una precisión extremadamente alta (0.9988) y una tasa de falsos positivos muy baja (0.0004). Además, demostramos la capacidad del conjunto para distinguir entre textos generados por modelos vistos y no vistos. Esto revela relaciones estilísticas interesantes entre modelos. Este enfoque para el análisis estilístico tiene implicaciones para verificar la originalidad de los textos generados por IA y rastrear los orígenes de las técnicas de entrenamiento de modelos.
Bitton et al. (Mon,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: