Steering Vector

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2024 Apr 25 14:14
Editor
Edited
Edited
2024 Oct 26 16:2
Refs
Refs
SAE-based vectors enable more fine-grained control. Because SAE vectors are designed to be sparse, they minimize the impact on other behaviors, allowing for more precise adjustments.

Contrastive Activation

Neuron SAE
와 달리 두 가지 시나리오 모델 활성화 차이를 직접적으로 겨냥해서 반영한다. 이진적이거나 큰 행동 변화를 포착하는 데 유용하지만, 그만큼 정밀한 조절은 어렵고 여러 연관된 행동을 함께 조절할 가능성이 있다. 즉 다른 행동에 영향을 미칠 가능성도 있다.
Steering Vector Usages
 
 
 
 

Google Deepmind

2022 ACL

Style vector

 
 

Recommendations