Activation 이 sparse한 정도로 높을수록 불필요한 계산을 줄이고 모델의 효율성을 높이는 데 도움을 준다. Superposition Hypothesis에 의해 이론이 뒷받침되며 높은 activation sparsity는 Mechanistic interpretability 에도 도움을 준다. (Neuron SAE로 분리하기 쉽다)
Activation Sparsity
Creator
Creator
Seonglae ChoCreated
Created
2024 Oct 5 22:38Editor
Editor
Seonglae ChoEdited
Edited
2024 Oct 5 22:42Refs
Refs