Feature Steering
SAE-based vectors enable more fine-grained control. Because SAE vectors are designed to be sparse, they minimize the impact on other behaviors, allowing for more precise adjustments.
Contrastive Activation
Neuron SAE 와 달리 두 가지 시나리오 모델 활성화 차이를 직접적으로 겨냥해서 반영한다. 이진적이거나 큰 행동 변화를 포착하는 데 유용하지만, 그만큼 정밀한 조절은 어렵고 여러 연관된 행동을 함께 조절할 가능성이 있다. 즉 다른 행동에 영향을 미칠 가능성도 있다.
Steering Vector Usages
Feature Steering Notion