Sparse AutoEncoder

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2021 Nov 30 5:27
Editor
Edited
Edited
2024 Jul 25 2:46

SAE

Sparse하게 만들고 (0인 부분 많게) decode

weak dictionary learning algorithm called a sparse autoencoder to generate learned features from a trained model that offer a more monosemantic unit of analysis than the model's neurons themselves
Sparse AutoEncoder는
L1 Loss Function
를 사용해 대부분의 특성을 0으로 만들고 (sparsity) 소수의 활성화만을 유지하게 한다.
Sparse AutoEncoder
를 사용하여 트랜스포머 모델의 뉴런 활성화를 분해함
L2 reconstruction loss + L1 penalty to hidden activation layer. 트랜스포머 모델 내의 MLP 부분에 초점을 맞추어, MLP 레이어들의 활성화를 Sparse AutoEncoder의 입력과 출력으로 사용하여 훈련. 이런 방식으로, 모델이 중요하다고 판단하는 정보만을 강조하여 해석 가능한 정보를 제공한다.
The sparse architectural approach (approach 1) was insufficient to prevent poly-semanticity, and that standard dictionary learning methods (approach 2) had significant issues with overfitting.

Activation vector → Dictionary vector → Reconstructed vector

 
 
 
 
 

Recommendations