Steer RL Experiment

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2025 Apr 18 15:11
Editor
Edited
Edited
2025 Apr 18 15:12
Refs
Refs
  • feature direction 더해주는 것이 성능 제일 좋았다 bias 누적되서
  • layer 별로 residual space 달라서 개별 policy 와 critic 만들어주기도 했지만 그게 더 안좋았다
 
 
 
 
 
 
 
 
 

Recommendations