CorrSteer Demonstration

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2025 Jan 16 17:18
Editor
Edited
Edited
2025 Jan 26 22:16
Refs
Refs
 
 
 
 

Excluding final residual vector

마지막 이후에는 llm 의 head operation 만 적용되기 때문에 sae feature 로 명시적인 조절을 하기보다 topken 단위의 matching 에 영향을 주었다. 실제로도 마지막 layer 의 경우 post 를 포함시키면 dominent 하게 적용하여 post 는 제외하였다.

SAE transferability

SAE transferability 논문을 참고하여 pretrianing 모델과 fine tuning 모델에는 동일한 SAE를 사용했고 따로 SAE를 해당 모델에 맞추어 학습하지 않았다. However feature extraction 은 transferability 와 별도로 의미있게 달라서 sae를 사용해서 각자 다른 correation extraction 을 거쳐 top feature를 적용했다.

SAE models

 
 
 
 

Recommendations