Loading views...

Azure CorrSteer 세팅

Date
Date
2025 Aug 8 0:0 → 2025 Aug 9 0:0
Created by
Created by
Seonglae ChoSeonglae Cho
Created time
Created time
2025 Aug 8 12:2
Last edited by
Last edited by
Seonglae ChoSeonglae Cho
Last edited time
Last edited time
2025 Aug 9 1:44
Refs
Refs
pip install -e . pip uninstall -y tensorflow tensorflow-cpu pip install "urllib3<2" -U pip install sae_lens==5.5.2 pip install transformers==4.49.0 git config --global credential.helper store git config --global user.name seonglae git config --global user.email sungle3737@gmail.com huggingface-cli login

바쁨

나 이번달 좀 바쁘겠다 생각해보니
  • 석사학위논문쓰고
  • 담주까지 다른 논문하나 제출
  • 다담주에 학위논문 컨퍼런스제출
  • 집구하기
  • 회사지원 인터뷰

돌리는 중인 pm2

  • ruddy
  • scoter
  • cackling
  • pochard
 
 
흥미로운 점은 음의 coefficient 와 양의 coefficient 가 일반저긍로 여겨지는 task 의 직관과 일치했다는 것이다. 이를 통해 단순한 트레이닝이 feature 단위로 steering 할 때에 sae 가 양의 activation 뿐만 아니라 음의 activation 도 고려하거나 특정 방향의 제거로 인한
spurious correlation 위해 그리고 overfitting 막는것처럼 인과가 반대일 수 있기 때문에 global method 일경우 제일 좋은 걸로 했고 foreach 모드일때는 기존 validationset 보다 성능 올라간것만 feature filter 통과하여 최종에 전달한다.
만약에 xs 같은 context dependt task 에서는 적용이 안된다면 이것은 context 에 따라 더 다양한 feature 를 선택해야한다는 말이 된다. context중요도에서는 dynamic feature selection 이 핵심이라는 말
반대로 dynamic selection 했을 때 훨씬 더 좋아진다는 task 가 context dependent 라면 이것을 증명하는 꼴
classification 과 benckmark 다른점은 genearation 만반영한다는점인데 그게 spirious 를 더 먹을수있기 때문( 해보기 mmlu all)
simpleqa 만 안좋으 이유는 이 sae feature 가 실제로 exteranal knoweldge 를 들여오기보다 inner knowledge 나 태도를 강화하는 task 에 최적화된 방향을 찾는건데 simpleqa 에서는 말그대로 지식에 대한 fidelity 였나 그거를 측정하는거라 거의 영향이 없었다.
only using test-time features
 
 
 

Recommendations