토큰별로 다른 activation 주는 게 핵심인데
전체적인 문제
- 학습이 reward 높이는 방향으로 잘 되고있는거지 모르겠음 왜냐면 올라갔다 내려갓다 많이 하고 상승안함
- epsilon exploration 이 해결해주는듯
- decode with multiplier 도 딱히 뭐없음 2 3 성능 올히려 내려감
- last k
- along layer
- along tokens
Steer RL Experiments
Seonglae Cho
Seonglae Cho