May 28, 2024Open Access

Detección de Marcas de Agua en Modelos de Lenguaje mediante Caja Negra

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

El marcado ha surgido como una forma prometedora de detectar texto generado por LLM. Para aplicar una marca de agua, un proveedor de LLM, dado una clave secreta, aumenta las generaciones con una señal que luego es detectable por cualquier parte que tenga la misma clave. Trabajos recientes han propuesto tres familias principales de esquemas de marcado, dos de las cuales se centran en la propiedad de preservar la distribución de LLM. Esto está motivado por ser un sustituto manejable para mantener las capacidades de LLM, pero también por la idea de que ocultar el despliegue de una marca de agua dificulta a los actores maliciosos ocultar el uso indebido evitando un cierto LLM o atacando su marca de agua. Sin embargo, a pesar de mucho discurso sobre la detectabilidad, ningún trabajo previo ha investigado si alguna de estas familias de esquemas es detectable en un entorno de caja negra realista. Abordamos esto por primera vez, desarrollando pruebas estadísticas rigurosas para detectar la presencia de las tres familias de esquemas de marcado más populares usando solo un número limitado de consultas de caja negra. Confirmamos experimentalmente la efectividad de nuestros métodos en una variedad de esquemas y un conjunto diverso de modelos de código abierto. Nuestros hallazgos indican que los actuales esquemas de marcado son más detectables de lo que se creía anteriormente, y que ocultar el hecho de que se desplegó una marca de agua puede no ser una forma viable para que los proveedores se protejan contra adversarios. Además aplicamos nuestros métodos para probar la presencia de marcas de agua detrás de las APIs públicas más populares: GPT4, Claude 3, Gemini 1.0 Pro, encontrando ninguna evidencia fuerte de una marca de agua en este momento.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo