SAE
Sparse하게 만들고 (0인 부분 많게) decode
weak dictionary learning algorithm called a sparse autoencoder to generate learned features from a trained model that offer a more monosemantic unit of analysis than the model's neurons themselves
Sparse AutoEncoder는 L1 Loss Function를 사용해 대부분의 특성을 0으로 만들고 (sparsity) 소수의 활성화만을 유지하게 한다.
Sparse AutoEncoder를 사용하여 트랜스포머 모델의 뉴런 활성화를 분해함
L2 reconstruction loss + L1 penalty to hidden activation layer. 트랜스포머 모델 내의 MLP 부분에 초점을 맞추어, MLP 레이어들의 활성화를 Sparse AutoEncoder의 입력과 출력으로 사용하여 훈련. 이런 방식으로, 모델이 중요하다고 판단하는 정보만을 강조하여 해석 가능한 정보를 제공한다.
The sparse architectural approach (approach 1) was insufficient to prevent poly-semanticity, and that standard dictionary learning methods (approach 2) had significant issues with overfitting.