CorrSteer Demonstration

Excluding final residual vector

마지막 이후에는 llm 의 head operation 만 적용되기 때문에 sae feature 로 명시적인 조절을 하기보다 topken 단위의 matching 에 영향을 주었다. 실제로도 마지막 layer 의 경우 post 를 포함시키면 dominent 하게 적용하여 post 는 제외하였다.

SAE transferability

SAE transferability 논문을 참고하여 pretrianing 모델과 fine tuning 모델에는 동일한 SAE를 사용했고 따로 SAE를 해당 모델에 맞추어 학습하지 않았다. However feature extraction 은 transferability 와 별도로 의미있게 달라서 sae를 사용해서 각자 다른 correation extraction 을 거쳐 top feature를 적용했다.

SAE models

GPT2 ghost gradient https://www.lesswrong.com/posts/f9EgfLSurAiqRJySD/open-source-sparse-autoencoders-for-all-residual-stream

CorrSteer Demonstration

Excluding final residual vector

SAE transferability

SAE models

Recommendations