per sample mask 코드 단위 구현 잘되있나 확인
validation 안쓸거고 crl 목적이 framework 안에 특정 layer inpection선택 이 method 내 포함되는게 아니라 성능을 향상시키는 layer에서 도움이되는 interpretable feature 토큰별로 찾아내는게 목적이다 하면 댐
“성능 튜닝용 hyperparameter”가 아니라어느 레이어에서 어떤 feature가 task-relevant한지 분석하는 도구”라고 못 박기. table 1 caption 과 주변에 명시했다 misleading 방지 위해

- 55.23 → 55.73 → 56.11
- 30.30 → 36.11 → 36.30
Rebuttal by Authors
0. bFHy - 4 - open - 실험요구 빡세
- non rl baseline
- no confidence intervals, multiple-seed runs, or bootstrap tests. I couldn't be confident about stability
- rebuttal에서 빠르게 3-seed 재실험 후 CI만 보여주면 그 자체로 신뢰도 상승.
- top-k SAE activation features, simple classifier baseline
- → 작은 규모로라도 만들면 credibility 급상승. → 리뷰어 bFHy는 이거만 있으면 점수 올리겠다고 명시했다.
- Clarify formatting issue (MMLU invalid outputs)
- 이건 sinlge token 에서는 어느정도 인정하지만, formatting 효과를 완전히 제거한 constrained decoding (a,b,c,d only) 결과보면 single token case 에서도 성능증가를 보인다. 더불어 multi token case 에서도 여러 성능 증가를 다양한 non format feature 사용을 통해 올라갔다. 우리 method 는 task 관련 feature 가 어떤 layer 에 있는지 빠르게 탐지할 수 있는 방법으로도 사용될 수 있으며 이는 formatting 문제가 실용적으로도 해결될 수 있음을 의미한다.
- structured output 결과도 같이 제시?
우선 좋은 리뷰에 감사합니다. 성능 개선에 대한 여러가지 방식이 있을 수 있습니다. 우리가 보여주려 한것은 interpretable steering 으로 실질적인 성능 개선이 있을 수 있는 겄을 보였습니다 그리고 두번째 rweakness 에 대해 이건 sinlge token 에서는 어느정도 인정하지만, formatting 효과를 완전히 제거한 constrained decoding (a,b,c,d only) 결과보면 single token case 에서도 성능증가를 보인다. 더불어 multi token case 에서도 여러 성능 증가를 다양한 non format feature 사용을 통해 올라갔다. 우리 method 는 task 관련 feature 가 어떤 layer 에 있는지 빠르게 탐지할 수 있는 방법으로도 사용될 수 있으며 이는 formatting 문제가 실용적으로도 해결될 수 있음을 의미한다. multi seed expeirments와 bootsteamp test 를 통해 expeirment mehtod result 의 robustness를 확인했습니다. 또한 top-k SAE features by activation, or by a supervised classifier over features으로 dynamic baseline 에 대한 상대적ㅇ 우월을 확인했습ㄴ디ㅏ. format-sanitizer 를 추가한 결과또한 추가했습니다. critic bottleneck 에 대한 염려는 이해합니다. 다만 이는 layer 별로 달랐고 이는 레이어별로 linear 하게 구분할 수 있는곳과 없는 곳이 있다는 곳을 의미합니다. 다만 이는 근본적으로 성능 향상이 corrected / misguided 구분 못할때로 upper bound 되어있다는 거지 성능향상 자체를 제한하는 것이 아닙니다. policy bottleneck 일때는 policy 를 더 깊게 하더나 반대의 경우 critic 을 깊게 하여 performance 를 optimize 할 수 있습니다. 이는 최신 RL based llm training 에서 발견된 logistic perforamcne 나 base model performacen 끌어내는것과 align된다고 생각합니다.
multi seed experiment. (Bootstrap test?)
dynamic baseline such as always add the top-k SAE features by activation, or by a supervised classifier over features
The paper doesn’t convincingly isolate the benefit of PPO-based selection over such cheap alternatives.
post processing not decoder with multi token?
2. bfnm - 4
rl easy exampleaion with analogy
target control model is policy control network
equaeiton of afm
- coefficient AFM description - wide space exploration
- “Eq. 3 implies coefficient=1… but Section 4.2 uses steering coefficients 10–100. This coefficient is never defined
- Steering coefficiton justify the proper coefficient range varys per layer. That means we need adaptive coefficient required per layer and even task. The natural solution is just averaging the observed coeficient.
Thank you for the great comment and im happy to answer your questions I agree with the AFM's details are missed during the polishing process. so i added more details in the paper: {수식} Steering coefficiton experiments justify the proper coefficient range varys per layer. 이것은 우리에게 증명해주는게 And the conclusion is we requires a different coefficent for each layer and even task. The natural and safest solution is averaging the observed coeficient with positive cases. SFT나 DPO 에 대한 비교 요구는 적절하나 저희는 성능보다 which feature 가 선택되느냐에 대한 interpretability 에 집중했습니다. weakness 4번의 주장은 실험에 기반하지 않았고 분명히 저희가 잘못 적었으며 원래 의도는 그걸 확인해보지 않앗다인데 이부분은 협업중 일어난 명확한 실수다. miscommunicated 였다 해당 실험을 재수행했으며 SFT 이후에도 성능을 향상시켰을을 보였다.
crl after SFT model
1. 8AZS - 2
soften non linear and some supporting cite
safety and performance → improvement on reasoning or whatever safety fariness
clarity / reproducibility 문제를 가장 강하게 지적했다. 명확한 factual correction + missing definitions + missing sections 지적
- why PPO rather than DPO or GRPO?
- Coefficient 정의·AFM 정의 누락
- Crucial terms like ‘coefficients’ used without introduction… no coefficients in Eq.3…
What if you used random features instead of SAE features?
답변해주기
- Missing algorithm, missing reward definitions, reproducibility holes
- Algorithm 1 mentioned… but not anywhere in the paper.”
- “no description of policy/value nets.”
- “task-specific rewards promised in 3.4 but missing in Appendix A.”
- Appendix A.5 empty.
- 여러 Figure caption mismatch.
- Figure 3: “generation step” 용어 불일치 - 본문에서는 generation step = “token position”, appendix에서는 generation step = “layer index”
- Figure 4 caption: blue ↔ green이 잘못 표기됨 Figure 4 caption: blue <--> green.
- Figure 2: what is in the left pane, and what in the right? 즉, 캡션이 그림 구성을 설명하지 않아 이해가 불가능하다는 뜻.
- L863-864: Fig. 9 right and Fig. 10 right do not seem to show this. 본문에서는 어떤 현상이 보인다고 주장하고 있는데, 해당 그림 우측 패널이 그 현상을 전혀 보여주지 않는다는 지적
- Fig. 14 caption: “coefficient 18”이라는 미정의 용어 등장 그림 캡션에 “coefficient 18”이 나오는데, 본문/appendix 어디에도 “18이 무엇인지” (layer? feature ID? scale 값?) 정의 없음.
- entire narrative clarity 문제.
GRPO를 사용한 이유는 명확합니다. 우리는 성능보다 interpretabliity 와 수치를 해석하고 싶어 critic network value 를 눈으로 확인했습니다. 하지만 더 많은 컴퓨팅과 메모리가 허용되고 interpretability 에서 selected feature 에 대한 신뢰가 ppo 로 생기려는 의도입니다. 즉 method 자체가 ppo 가 성능은 안좋더라도 group relative critic 이용하는 grpo 보다 더 explainable 하다고 보기때문 pomdp 에 대한 지적에 대해 이야기하면, 본문에 언급된 CRL-token POMDP이고 CRL-layer 는 fully observed mdp 입니다. crl-token 이 pomdp인 이유는 kv 캐시는 token wise 로 적용되지만 policy model 이 보는 것은 sampling 된 토큰에 대한 정보 없이 이전 토큰 해당 레이어의 토큰에서 지금 토큰 해당 레이어의 residual stream 으로 바로 이동하기 때문입니다. 그래서 이 과정은 아직 결정되지 않은 token state를 다음 단계에서는 포함하기에 pomdp 이다. last token 의 임의의 레이어의 hiddens state 가 input tokens를 포함하는 injective function 이라는 말이 있지만 (citation )이또한 다만 이 approximation 에 대해서 impact 를 보아야한다는 것에는 동의한다. 하지만 우리는 temperature 0 를 사용하여 토큰 sampling 영향이 없어진 환경에서 training evaluation 한다. 해당논문의 말하는 바는 각 레이어 empirically injectivity는 표현이 정보적으로 mdp approximation에 충분하다는 뜻이기도 하면서, 불확실성이 포함되니 pomdp 로 모델링해야함을 의미하기도 한다. 기타로 Figure 2 에서 constrained decoding 과 unconstrained decoding 이 다른 figure 와 다르게 implicit 했습니다. 지적에 감사하고 수정하엿습니다.
random feature 사용하는 모델 test
Coefficient averaging
Correct, incorrect, corrected and misguided are not introduced/defined.
TASK-WISE ANALYSIS is empty
Figure 4 caption: blue <--> green.
3. b6zw - 6
답변 안하는게 낫다
- reproducibility와 stability를 걱정.
A key weakness is the lack of comparison to established feature control approaches such as activation-based or gradient-based interventions 에 동의합니다. 다만 저희 redeclare 하자면 이 CRL 연구는 inherent interpretable 입니다. As far as I know there I wan't able to find a method by leveraging gradient information to steeri model in interpretable way. reward 는 q function like style based on critic after steered state was not successful. We also suspect non-birary rewards like potentially token entropy from (cite) Dense Process Reward like Probability based Reward but in this case focused on verify the isolating a effect of token level steering agains simplest simplest binary reward isignal
Seonglae Cho