prompt steering 없이 새로운 token generation 에만 한건 이전 리서치들 이후토ㄴ큰이 스티어링에 좋다이기 때문이고 genrated otken 에 해야 rl observe 가 더 의미있을거같아서 markov process 로 볼수있다 Adaptive masksteer 평균 되돌리기 잘 안좋다 오히려 softmax 랑 전체평균 조합할까