Gated SAE

Creator
Creator
Seonglae Cho
Created
Created
2024 Oct 24 0:13
Editor
Edited
Edited
2025 Jan 30 15:45
Refs

Gated SAE

L1 loss가 희소성을 강제하지만 중요한 특징까지 과도하게 감소하여 shrinkage되여 데이터를 적절히 표현하지 못하게 되는 문제가 있다.
  • 어떤 특성을 활성화할지 선택 (gate)하는 과정에서만 L1 페널티를 적용
  • 선택된 뉴런들이 얼마만큼 활성화될지를 결정하는 단계 (without l1)
즉 특성 활성화는 sparse 하게 하되, l1 으로 인해 값의 크기 자체가 줄어드는 것은 막도록
https://www.lesswrong.com/posts/EWhA4pyfrbdSkCd4G/evaluating-sparse-autoencoders-with-board-game-models
 

JumpReLU SAE with
Unit step function

Does this mean they efficiently implemented the gating mechanism using JumpReLU activation?
σ(z)=JumpReLUθ(z)=zH(zθ)\sigma(z) = JumpReLU_\theta(z) = z \odot H(z - \theta)
notion image
notion image
 
 
 
 
anthropic analysis
Gated SAE
google jumprelu preliminary
gemma scope jumprelu
openai analysis
 

Recommendations