Control RL Experiment

Creator

Creator

Seonglae Cho

Created

Created

2025 Mar 17 15:38

Editor

Editor

Seonglae Cho

Edited

Edited

2025 May 9 18:9

Refs

Refs

토큰별로 다른 activation 주는 게 핵심인데

전체적인 문제

학습이 reward 높이는 방향으로 잘 되고있는거지 모르겠음 왜냐면 올라갔다 내려갓다 많이 하고 상승안함

epsilon exploration 이 해결해주는듯

decode with multiplier 도 딱히 뭐없음 2 3 성능 올히려 내려감

last k

along layer
along tokens

Steer RL Experiments

Steer RL Hyperparameters

Steer RL Figures

Steer RL Circuit analysis

Recommendations

/////