CRL Method

Creator

Created

2025 Jul 24 10:51

Editor

Edited

2025 Aug 8 11:23

Refs

prompt steering 없이 새로운 token generation 에만 한건 이전 리서치들 이후토ㄴ큰이 스티어링에 좋다이기 때문이고 genrated otken 에 해야 rl observe 가 더 의미있을거같아서

markov process 로 볼수있다

steer 평균 되돌리기 잘 안좋다 오히려 softmax 랑 전체평균 조합할까

//////