선형 표현 가설은 고차원 개념이 LLM의 표현 공간에서 선형 방향으로 인코딩된다고 가정합니다. Park et al. (2024)는 인과 내적을 사용하여 1차원 잠재공간 표현 및 개입과 같은 선형 표현의 여러 해석을 통합하여 이 개념을 형식화합니다. 그러나 그들의 프레임워크는 단일 토큰 반사실 쌍에 의존하며 모호한 대조 쌍을 처리할 수 없어 복잡하거나 맥락에 의존하는 개념에 대한 적용 가능성을 제한합니다. 우리는 정규 표현 공간의 단위 벡터로서 이진 개념의 새로운 개념을 도입하고, LLM의 (신경) 활성 차이를 최대 우도 추정(MLE)과 결합하여 개념 방향(즉, 조향 벡터)을 계산합니다. 우리의 방법인 활성화 기반 정규화 차이의 합(SAND)은 von Mises-Fisher(vMF) 분포에서 샘플로 모델링된 활성 차이의 사용을 형식화하여 개념 방향을 도출하는 원칙적 접근을 제공합니다. 우리는 비임베딩 표현과 단일 토큰 쌍에 대한 의존성을 제거하여 Park et al. (2024)의 적용 가능성을 확장합니다. 다양한 개념과 벤치마크에 걸친 LLaMA 모델 실험을 통해, 우리의 경량 접근 방식이 모니터링 및 조작 같은 활성화 엔지니어링 작업에서 더 큰 유연성과 우수한 성능을 제공함을 입증합니다.
Nguyen et al. (토요일,)은 이 질문을 연구했습니다.