June 3, 2024Open Access

Alineación Desacoplada para una Adaptación Robusta Plug-and-Play

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Presentamos un método de mejora de seguridad de bajo recurso para alinear grandes modelos de lenguaje (LLMs) sin necesidad de ajuste fino supervisado (SFT) o aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). Nuestra idea principal es aprovechar la destilación de conocimiento para extraer la información de alineación de LLMs bien alineados existentes e integrarla en LLMs no alineados de forma plug-and-play. En la metodología, empleamos depuración delta para identificar los componentes críticos de conocimiento necesarios para una destilación efectiva. En el conjunto de datos de preguntas dañinas, nuestro método mejora significativamente la tasa de éxito promedio en defensa en aproximadamente un 14.41%, alcanzando hasta un 51.39%, en 17 LLMs preentrenados no alineados, sin comprometer el rendimiento.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo