Los puntos clave no están disponibles para este artículo en este momento.
Los posibles daños de los modelos de lenguaje grandes pueden ser mitigados al marcar digitalmente la salida del modelo, es decir, incrustando señales en el texto generado que son invisibles para los humanos pero algorítmicamente detectables a partir de un corto intervalo de tokens. Proponemos un marco de marcaje de agua para modelos de lenguaje propietarios. La marca de agua se puede incrustar con un impacto negligible en la calidad del texto y puede ser detectada utilizando un algoritmo de código abierto eficiente sin acceso a la API o parámetros del modelo de lenguaje. La marca de agua funciona seleccionando un conjunto aleatorio de tokens "verdes" antes de que se genere una palabra y luego promoviendo suavemente el uso de tokens verdes durante el muestreo. Proponemos una prueba estadística para detectar la marca de agua con p-valores interpretables, y derivamos un marco teórico de la información para analizar la sensibilidad de la marca de agua. Probamos la marca de agua usando un modelo de varios billones de parámetros de la familia Open Pretrained Transformer (OPT) y discutimos la robustez y seguridad.
Kirchenbauer et al. (Tue,) estudiaron esta cuestión.