Steering Vector

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2024 Apr 25 14:14
Editor
Edited
Edited
2024 Dec 20 0:4
Refs

Feature Steering

SAE-based vectors enable more fine-grained control. Because SAE vectors are designed to be sparse, they minimize the impact on other behaviors, allowing for more precise adjustments.

Contrastive Activation

Neuron SAE
와 달리 두 가지 시나리오 모델 활성화 차이를 직접적으로 겨냥해서 반영한다. 이진적이거나 큰 행동 변화를 포착하는 데 유용하지만, 그만큼 정밀한 조절은 어렵고 여러 연관된 행동을 함께 조절할 가능성이 있다. 즉 다른 행동에 영향을 미칠 가능성도 있다.
Steering Vector Usages
 
Feature Steering Notion
 
 
 
 
 

Anthropic SAE steering feature vector with limitation and application (2024)

Google DeepMind

Latent steering vector from 2022 ACL

Style vector

 
 

Recommendations