Loading views...

CRL Corrsteer Sync

Date
Date
2025 Aug 22 0:0 → 2025 Aug 25 0:0
Created by
Created by
Seonglae ChoSeonglae Cho
Created time
Created time
2025 Aug 22 0:32
Last edited by
Last edited by
Seonglae ChoSeonglae Cho
Last edited time
Last edited time
2025 Sep 7 16:30
Refs
IDTA
가지고 실시간 sparse feature 뽑아서 실시간 computing 적음도 fine tuning 보다 높은 성능 보이기

Results

  • single layer 좋지 않았음
  • activation 중간에 있는게 좋았음
  • sigmoid 보다 tanh 가 좋았음

Target

1:45분 수정

Current

 
 
 
 
notion image
notion image
더 효과적인 sparse selection 구조
  1. token decay 혹은 그냥 correation 더하기보다 곱하기 - 성능 100 으로 73한거 유지로 hyperparameter 삭제로 좋다, feature 동일사용은 여전히 같다.
    1. 음수 corr 음수 logit 경우 고려해야하나
      실데 스티어링 corr 업에이트할때 선택한 sae feature 랑 더해진 coeff 로 corr 계산해야함
  1. activation decay 로 steering 0.99 나 0.95 로 줄여나갈까 - 성능유지는 했는데 토큰 길이 짧아서 별의미없 73.21
  1. 현재토큰 활성화 중에서만 masking 하면 되잖아 성능만 제발 유지되면 encode 중에서
    1. 혹은 현재꺼 반대 마스킹 새로운거 더하기위해
    2. correlation 곱해주는 곳에다가 1 아니면 corr 이렇게 해도 되고
1. Gumbel Softmax + Top-K Selection
성능 떨어짐
2. Sparse Attention Mechanism
성능유지
3. Straight-Through Estimator (STE)
성능유지
4. Learnable Sparse Gates
성능유지
1. Gumbel Softmax: 미분 가능한 discrete sampling
2. Sparse Attention: correlation을 attention weight로 활용
3. STE: discrete selection + continuous gradients

or simply

  • Token-wise context-dependent correlation → decreased
  • Token position linear freedom → same (후반강조는 오히려 낮아지고)
  • Attention-based correlation weighting → same
  • Learnable mixing parameter → same
 
 
 
 
 
 
 
 
 

Recommendations