Control RL Experiment

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2025 Mar 17 15:38
Editor
Edited
Edited
2025 May 9 18:9
Refs
Refs
토큰별로 다른 activation 주는 게 핵심인데

전체적인 문제

  • 학습이 reward 높이는 방향으로 잘 되고있는거지 모르겠음 왜냐면 올라갔다 내려갓다 많이 하고 상승안함
    • epsilon exploration 이 해결해주는듯
  • decode with multiplier 도 딱히 뭐없음 2 3 성능 올히려 내려감
  • last k
    • along layer
    • along tokens
Steer RL Experiments
 
 
 
 
 
 
 
 

 

Recommendations