CRL Discussion

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2025 Jul 22 21:57
Editor
Edited
Edited
2025 Aug 9 11:44
Refs
Refs

Limitation 은 다 single token generation (찾지 못하는것도 핵심 feature)

논문 핵심 정보는 sae feature 가 항상 interpreatble 하지는 않고 bias hallucination 등에 좋앗다
sae feature 가 결론적으로 monosemantic 하지 않을 수 있다는 것\을 암시하며, 혹은 최소한의 해석으로 sae feature space 에서 side effect sae steering 시에는 더 중요한것을 보인다. description 과 topic 매칭보단 side effect 로 인한 choice 가 더 dominent 하다는 것을 보면. 즉 input 을 monosemantic 하게 나눌때랑은 많이 다르게 feature direction 은 아니기에 많은 side effect 는 non linearerity 를 간접 증거로 보인다.
왜냐면 통계적으로 corrected 한게 매우 많음에도 steering 자체가 description 이 다르다는건 의미는 있다는거임. 다만 spare 같이 sae steering 전용 알고리즘 자체는 안쓰고 feature direction 만 함
다만 bbq 같은 경우 bias feature fixed steering 햇을때보다 성능 낮았다. 다만 해당 layer 같은 space에 있었던 것을 생각해보면 sae mmlu 성능 향상이 의미하는 바는 해당 레이어에서 특정 reaosning 혹은 qa 성능과 직접적으로 연관된 feature 혹은 internal featture 가 연관됨을 의미한다.
neuronperdia (cite) 를 활용한 keyword 기반 manual crafted 검색으로 한개 bbq 인데 모든 case 에서 그렇게 하기는 매우 어렵고 적용안되는 경우 있으니 내경우가 더 유망하다
 
cross coder 같이 layer search 안해도 되면 더 좋을듯
coeffieinct 자동조정하려는 노력 architecture 많이 했으나 계속 0으로 수렴하여 minimum cut 으로 구현했다 더 좋은 방안 있으면 좋을듯 왜냐햐면 layer 지나갈수록 (cite) norm 커지는 현상에 따라 coeffient 도 적절한 sweet spot () 범위가 다른데 이게 기본적으로 context 따라 해당 feature 강도조저로디는게 이상적일듯

Multi token generation

hyperparameter 에 예밈하고 테스크별로 최적인 레이어, 계수, 그리고 steering 방식도 달랐는데 우리는 decoder bias 를 같이 더해주는 것과 그냥 디렉션만 더하는 방식을 둘다 실험했다. 일반적으로 choice 즉 single token generation 에서는 bias 더해주는게 좋았느ㄴ데 아마 이것이 전반적인 token residual stream norm 을 높여 attention sink 처러ㅁ 전반적인 focus 를 높여서 그렇다고 추측된다. 다만 multi layer 의 경우 이게 accumulate 되면서 model broke 되었고 multi token 의 겨ㅇ우 작동은 했지만 norm 이 전체적으로 높아지며 attention sink token 역하ㄹ이 없어서인지 direction 만 더해주는 것이 성능 더 높았다. sparsely condition steering 시에는 decoder 에 branch token 에 대해 강조해주는게 좋을수도 (관련 토큰들) token entropy 보고 컨디션 주면될듯 loss 나
 
 
그래서 핵심 결론은 이 side effect 를 사용하여 control ai model 에 제한된 sae feature 만을 주더라도 side effect 를 이용할 수 있겟다 malicious behavior 할수있다 막기위해
  • monosemantic 더 잘하는 모델 찾아야
  • fundamentally non linear 하다면 그 linear superposition basis 찾는것처럼 완전구분 해야햐ㅏ는데 혹은 못할수도
 
 
 
residual strema 뿐 아니라 다른곳 적용가능할테네데 lora 처럼 parameter 조절하는 network 가 잇겠다. mlp 나
multi layer multi token 은안해봤는데 해볼수도 다만 ㄷxploration 너무 조합커져서 힘들다
이 method 의 좋은 점은 유저별로나 실용적으로 industrial 하게 갈아끼울수 있다는 점이ㅏㄷ. feedback 에 따라서 적은 양의 샘플로도 score 를 빠르게[ 올릴 수 있었고 상대적으로 작은 모델 training 으로 rl 로 좋았다.유저 맞춤형 대화에 적용될수있음
conclusion 그래도 있는게 좋다 limitaiton이나
 
 
 
 
 
흥미로운 점은 음의 coefficient 와 양의 coefficient 가 일반저긍로 여겨지는 task 의 직관과 일치했다는 것이다. 이를 통해 단순한 트레이닝이 feature 단위로 steering 할 때에 sae 가 양의 activation 뿐만 아니라 음의 activation 도 고려하거나 특정 방향의 제거로 인한
spurious correlation 위해 그리고 overfitting 막는것처럼 인과가 반대일 수 있기 때문에 global method 일경우 제일 좋은 걸로 했고 foreach 모드일때는 기존 validationset 보다 성능 올라간것만 feature filter 통과하여 최종에 전달한다.
만약에 xs 같은 context dependt task 에서는 적용이 안된다면 이것은 context 에 따라 더 다양한 feature 를 선택해야한다는 말이 된다. context중요도에서는 dynamic feature selection 이 핵심이라는 말
반대로 dynamic selection 했을 때 훨씬 더 좋아진다는 task 가 context dependent 라면 이것을 증명하는 꼴
classification 과 benckmark 다른점은 genearation 만반영한다는점인데 그게 spirious 를 더 먹을수있기 때문( 해보기 mmlu all)
simpleqa 만 안좋으 이유는 이 sae feature 가 실제로 exteranal knoweldge 를 들여오기보다 inner knowledge 나 태도를 강화하는 task 에 최적화된 방향을 찾는건데 simpleqa 에서는 말그대로 지식에 대한 fidelity 였나 그거를 측정하는거라 거의 영향이 없었다.
only using test-time features
 
 
 

Recommendations