CRL Conclusion

reasoning 이나 qa 를 향상 못시킨걸로 봐서 단순히 token 당 한개 sae 나 더 복잡한 circuit 을 이용한다는 것을 알 수 잇다. multi layer 간의 interaction 은 조합이 exponential 하게 나서 이번 연구에서는 circuit discovery 에는 힘들었지만 anrhtoipc 의 circuit tracing 의 atribution graph 와 합쳐서 dynamic 추적이 가능하다면 가능할수도

기존 rlvr 에 비해서 성능향상폭이 reasoning 영역에서 제한적인 것은 해당 task 에서 더 복잡한 circuit 을 사용할 때에 향상된다고 가정시에, token 별로 1 개 feature 만 조절하는 restriction 이 적용된 method 라서 제한적이었던 것이다. 다만 jaibreaking prevention 이나 bias mitigation 에서 좋은 성능을 보였다는 것은 해당 부분에서는 비교적 간단한 circuit task 를 요구한다는 점을 추론할 수 있다. 앞으로 rlvr 을 crl 에 적용시 더 복잡한 control 이 가능한 method 나 모델을 개발 시에 reasoning 부분도 interpretable 한 동시에 circuit 을 알려주는 방식으로 tuning 할 수 있을 것으로 보인다. 이 method ㄹㄹ 여러 레이어에 걸쳐서 causal 학습하는 chain 을 적용한다면 복잡한 reasoning circuit 도 layer 별로 분해해서 이할 수 있을것

CRL Conclusion

Recommendations