Los puntos clave no están disponibles para este artículo en este momento.
Presentamos un método de mejora de seguridad de bajo recurso para alinear grandes modelos de lenguaje (LLMs) sin necesidad de ajuste fino supervisado (SFT) o aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). Nuestra idea principal es aprovechar la destilación de conocimiento para extraer la información de alineación de LLMs bien alineados existentes e integrarla en LLMs no alineados de forma plug-and-play. En la metodología, empleamos depuración delta para identificar los componentes críticos de conocimiento necesarios para una destilación efectiva. En el conjunto de datos de preguntas dañinas, nuestro método mejora significativamente la tasa de éxito promedio en defensa en aproximadamente un 14.41%, alcanzando hasta un 51.39%, en 17 LLMs preentrenados no alineados, sin comprometer el rendimiento.
Luo et al. (Mon,) estudiaron esta cuestión.