June 17, 2024Open Access

안전 산술: 매개변수 및 활성화를 조정하여 언어 모델의 테스트 시간 안전 정렬을 위한 프레임워크

Key Points

Key points are not available for this paper at this time.

Abstract

대규모 언어 모델(LLM)이 인간의 가치와 안전하게 정렬되는 것은 번역 및 질문 응답과 같은 응용 프로그램에 통합됨에 따라 매우 중요합니다. 현재의 정렬 방법은 동적인 사용자 의도와 복잡한 목표에 어려움을 겪어 모델이 유해한 콘텐츠를 생성할 위험에 처해 있습니다. 우리는 다양한 시나리오에서 LLM의 안전성을 향상시키는 교육이 필요 없는 프레임워크인 안전 산술을 제안합니다: 기본 모델, 감독된 미세 조정 모델(SFT), 수정된 모델이 포함됩니다. 안전 산술은 유해한 콘텐츠를 피하기 위한 유해 방향 제거와 안전한 반응을 촉진하기 위한 안전 정렬을 포함합니다. 또한, 모델 안전성을 저해할 수 있는 수정 사례를 강조하는 데이터셋인 NoIntentEdit를 제시합니다. 우리의 실험 결과 안전 산술이 안전 조치를 크게 개선하고, 과도한 안전성을 줄이며, 모델 유용성을 유지하며 기존 방법보다 안전한 콘텐츠 생성을 보장하는 데 더 나은 성능을 발휘한다는 것을 보여줍니다.

안전 산술: 매개변수 및 활성화를 조정하여 언어 모델의 테스트 시간 안전 정렬을 위한 프레임워크

Key Points

Abstract

Cite This Study

Also Consider

Also Consider