reconstruction된 활성화 벡터가 원래 벡터와 같은 거리에 있는 무작위 벡터보다 다음 토큰 예측에서 훨씬 더 큰 오류를 유발한다
즉 복원된 벡터가 모델의 성능에 체계적이고 비정상적인 악영향을 끼친다는 점에서 단순한 노이즈나 무작위적인 오류와는 다르다
SAE pathological error
Creator
Creator
Seonglae ChoCreated
Created
2024 Nov 19 22:34Editor
Editor
Seonglae ChoEdited
Edited
2024 Nov 21 21:19Refs
Refs