CRL Method

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2025 Jul 24 10:51
Editor
Edited
Edited
2025 Aug 8 11:23
Refs
Refs
prompt steering 없이 새로운 token generation 에만 한건 이전 리서치들 이후토ㄴ큰이 스티어링에 좋다이기 때문이고 genrated otken 에 해야 rl observe 가 더 의미있을거같아서
 
markov process 로 볼수있다
 

Adaptive mask

steer 평균 되돌리기 잘 안좋다 오히려 softmax 랑 전체평균 조합할까
 
 
 
 
 

Recommendations