What type of study is this?

This is a Quantitative Study study.

October 7, 2025Open Access

최대 우도 추정을 이용한 선형 표현 가설을 위한 유연한 프레임워크로 나아가기

Key Points

우리의 접근법은 활성 차이를 통합하여 선형 표현 가설을 향상시켜 개념 방향 계산을 개선합니다.
활성 차이로 최대 우도 추정을 활용함으로써 다양한 개념에 걸쳐 더 유연한 프레임워크가 만들어졌습니다.
새로운 SAND 방법은 단일 토큰 쌍에 대한 의존성을 제거하여 복잡하고 맥락에 의존하는 개념에 대한 적용 가능성을 증가시킵니다.
LLaMA 모델과의 실험은 활성화 엔지니어링과 관련된 작업에서 우리의 프레임워크가 우수한 성능을 발휘함을 확인했습니다.

Abstract

선형 표현 가설은 고차원 개념이 LLM의 표현 공간에서 선형 방향으로 인코딩된다고 가정합니다. Park et al. (2024)는 인과 내적을 사용하여 1차원 잠재공간 표현 및 개입과 같은 선형 표현의 여러 해석을 통합하여 이 개념을 형식화합니다. 그러나 그들의 프레임워크는 단일 토큰 반사실 쌍에 의존하며 모호한 대조 쌍을 처리할 수 없어 복잡하거나 맥락에 의존하는 개념에 대한 적용 가능성을 제한합니다. 우리는 정규 표현 공간의 단위 벡터로서 이진 개념의 새로운 개념을 도입하고, LLM의 (신경) 활성 차이를 최대 우도 추정(MLE)과 결합하여 개념 방향(즉, 조향 벡터)을 계산합니다. 우리의 방법인 활성화 기반 정규화 차이의 합(SAND)은 von Mises-Fisher(vMF) 분포에서 샘플로 모델링된 활성 차이의 사용을 형식화하여 개념 방향을 도출하는 원칙적 접근을 제공합니다. 우리는 비임베딩 표현과 단일 토큰 쌍에 대한 의존성을 제거하여 Park et al. (2024)의 적용 가능성을 확장합니다. 다양한 개념과 벤치마크에 걸친 LLaMA 모델 실험을 통해, 우리의 경량 접근 방식이 모니터링 및 조작 같은 활성화 엔지니어링 작업에서 더 큰 유연성과 우수한 성능을 제공함을 입증합니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper