Steer RL Hyperparameters
Topk
- SAE 자체가 monosemantic feature 발견하는거라 1개씩 컨트롤이 기본적으로 맞긴 할듯
- 아니면 sparse 한 repsetatnion 나오는거랑 결합해서
- point wise multiplicaiton 해서 더해주던가 하는건 재밌을듯 scaler 로 작동해서
- 아니면 0 아닌 부분만 더해준다거나
Last-t (along tokens)
Layer l
- 이건 layer 개수 정해져있어서 scaling 리밋이 있음
- 다만 어디서 잘되는지는 좀 봐야할듯
Layer 고정하기 10가지 종류
- 20-25 1
- 24, 25 2
- 15,20,25 3
- 19,20,21 3
- 20,21,22,23,24 5
- 16,18,20,22,24 5
- 18,19,20,21,22 5
- 15,16,17,18,19,20,21,22,23,24 10
Seonglae Cho