Steer RL Hyperparameters

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2025 Apr 4 0:16
Editor
Edited
Edited
2025 May 5 23:26
Refs
Refs

Steer RL Hyperparameters

Topk

  • SAE 자체가 monosemantic feature 발견하는거라 1개씩 컨트롤이 기본적으로 맞긴 할듯
  • 아니면 sparse 한 repsetatnion 나오는거랑 결합해서
    • point wise multiplicaiton 해서 더해주던가 하는건 재밌을듯 scaler 로 작동해서
    • 아니면 0 아닌 부분만 더해준다거나

Last-t (along tokens)

Layer l

  • 이건 layer 개수 정해져있어서 scaling 리밋이 있음
  • 다만 어디서 잘되는지는 좀 봐야할듯

Layer 고정하기 10가지 종류

  • 20-25 1
  • 24, 25 2
  • 15,20,25 3
  • 19,20,21 3
  • 20,21,22,23,24 5
  • 16,18,20,22,24 5
  • 18,19,20,21,22 5
  • 15,16,17,18,19,20,21,22,23,24 10
 
 
 
 
 
 
 
 

Recommendations