MoE SAE BAIR

MoE SAE Topics

moe routing 에 대한 interpretability 나 steering 보다는 sae 가 linear probing 에 비해 성능도 부족할거같고 이미 선택되는 router 가 그 역할을 더 잘 수행할듯

한다면 sae 를 shared attention block activation 에 적용해서 공유하는 feature 에서 moe subset feature set 그리고 expert 간 거리 비교만 해도 이미 의미있는 연구 될듯. shared feature set 이 shared expert 되는게 이상적이고 math exper and python coding expert 비슷하다거나. pure interpretability 로 가면 재밋을듯 vector geometry and transform

궁극적으로는 residual stream 의 layer 별로 crosscoder 인 기존 방식이 아니라 moe dimension 으로의 crosscoder 를 적용한다면 매우 방향성과 기여 확실할듯 (혹은 SAE 한개로 그냥 weight 구분없이 해도 같은 moe familty 라 transferbility 문제는 없을듯?)

crosscoder 구조가 tricky 한게 인코더를 레이어별로 다른 걸 쓰는 데도 latent 를 공유하게 하는건데, 어떤 레이어 decoder 에서 서로다른 encoder 에서 온 reconstruction 을 최소화하는 loss 를 적용해서 중간에 있는 latent space 를 같아지도록 approximate

1024 * 10만 10^9

expert 단위로 분리

expert latent concat 혹은 monosemantic mlp output concap

experiment

residual stream

router feature 있는지

질문

figure 2 - moe 가 expert 많아서 더 많은 superposition 을 residual stream 에서는 가질수도 혹은 말했던 것처럼 residual stream space 공유가 expert 선택에 따라 달라질수도. Router-awareness 중요한것으로 귀결. crosscoder 랑 동등한지만 쉬운 구조

흥미를 끌이 위해서는 feature 개별분석도 필요할듯 특히 expert 특히 acl 에서 스토리텔링 하려면

ACL acceptance 위해서 타임라인 어케 잡으면 될지

many dead features ⇒ strong specialization need citation or changed

MoE SAE BAIR

experiment

질문

Recommendations