SAE training hands on 연구노트

생각보다 오래 안걸림 expansion factor 에 따라 달라질거같긴 한데 낫배드인듯 llm infernce 가 역시 길다. 여러

Activation Store 를 하나 공유하고 한번만 inference 하며 layer 별로 전부 저장하면 좋을듯.

전체 memory limit 정해두고 input text로 hash 돌린 다음에 매핑해서 key value storage 로 그냥 보내주면 좋을듯? 다만 web serving 빨리 해주는 방식이나 redis 같은 녀석도 괜찮을 것 같은데 hash layer 추가해서 abstraction 하면

여튼 속도 자체가 좋아서 engineering 보다는 nnet 이나 result insight 에 집중하자고 확실히 pm2 같이 background process 돌려야한다는 것을 깨달은 건 오늘 갑자기 windows 로 전부 전환되는 일 또 생겼는 데다가 vscode ssh remote connection 은 확실히 가끔 끊긴다.

prime intellect 로 a100 돌려보는중

BatchTopK repo 가 굉장히 좋다는 것도 깨닫고 snlp 팀웍에 너무 부담이나 시간도 줄이고 꽤나 알찬 하루였다. 오전에는 드디어 드디어

Monosemanticity 논문 끝까지 다읽고

Pre-bias gradient,

SAE Finetuning,

SAE Distributed Training, and 나중에

Activation Store 까지 개념 추가하는 좋은 알찬 날이었다.

카렌 보낸 논문도 나름 인사이트 채우면서 읽고 답장도 하고 slack 에서 많은 정보 얻으면서

Model Interpretability 에 대해 daniel ten 이 3가지 방법 관심 갖는다는것에 흥미 가졌다. SAE dataset으로 pile openwebtext,

TinyStories 쓰이는 거 보고 우리는 마지막거 dataset regularization 으로 정해진 것 깨깨닫기도 한다.

그와중에 원래 main.py 가 3개로 나뉘어져 있어서 파트가 jumprelu 는 하나만 있고 appendix original paper l1 coefficient 는 jumpreulu 만 하길래 3090ti 다시 켜진걸로 나머지 topk 차이랑 랑 topk dictionary 돌린다.

Coding

sae_lens converting

huggingface publish

sae dashboard connecting

SAEDashboard

jbloomAus • Updated 2025 Jun 20 23:12

Nnet design

intermediate 을 뒤에 붙일지 앞에 붙일지

l1 regularizer 를 16에는 절반할지 아니면 같게 할지

Understanding

l1 norm, reconstruction 하고 논문 metric 어떤 의미 가지는지 https://arxiv.org/pdf/2412.06410

visualize two ideas

왜 vanilla sae 오류나는지 코드 찾아보고 clipping? 이나 slack 물어보기

Training

gemma run

Tinytail run (roneneldan/TinyStories)

Nnet SAE training

SAE training hands on 연구노트

Coding

Understanding

Training

Recommendations