Loading views...

SAE training hands on 연구노트

Date
Date
2025 Feb 3 0:0 → 2025 Feb 6 0:0
Created by
Created by
Seonglae ChoSeonglae Cho
Created time
Created time
2025 Feb 3 12:8
Last edited by
Last edited by
Seonglae ChoSeonglae Cho
Last edited time
Last edited time
2025 Feb 7 0:18
Refs
Refs
생각보다 오래 안걸림 expansion factor 에 따라 달라질거같긴 한데 낫배드인듯 llm infernce 가 역시 길다. 여러
Activation Store
를 하나 공유하고 한번만 inference 하며 layer 별로 전부 저장하면 좋을듯.
전체 memory limit 정해두고 input text로 hash 돌린 다음에 매핑해서 key value storage 로 그냥 보내주면 좋을듯? 다만 web serving 빨리 해주는 방식이나 redis 같은 녀석도 괜찮을 것 같은데 hash layer 추가해서 abstraction 하면
여튼 속도 자체가 좋아서 engineering 보다는 nnet 이나 result insight 에 집중하자고 확실히 pm2 같이 background process 돌려야한다는 것을 깨달은 건 오늘 갑자기 windows 로 전부 전환되는 일 또 생겼는 데다가 vscode ssh remote connection 은 확실히 가끔 끊긴다.
prime intellect 로 a100 돌려보는중
BatchTopK repo 가 굉장히 좋다는 것도 깨닫고 snlp 팀웍에 너무 부담이나 시간도 줄이고 꽤나 알찬 하루였다. 오전에는 드디어 드디어
Monosemanticity
논문 끝까지 다읽고
Pre-bias gradient
,
SAE Finetuning
,
SAE Distributed Training
, and 나중에
Activation Store
까지 개념 추가하는 좋은 알찬 날이었다.
카렌 보낸 논문도 나름 인사이트 채우면서 읽고 답장도 하고 slack 에서 많은 정보 얻으면서
Model Interpretability
에 대해 daniel ten 이 3가지 방법 관심 갖는다는것에 흥미 가졌다. SAE dataset으로 pile openwebtext,
TinyStories
쓰이는 거 보고 우리는 마지막거 dataset regularization 으로 정해진 것 깨깨닫기도 한다.
그와중에 원래 main.py 가 3개로 나뉘어져 있어서 파트가 jumprelu 는 하나만 있고 appendix original paper l1 coefficient 는 jumpreulu 만 하길래 3090ti 다시 켜진걸로 나머지 topk 차이랑 랑 topk dictionary 돌린다.
 

Coding

sae_lens converting
huggingface publish
Nnet design
intermediate 을 뒤에 붙일지 앞에 붙일지
l1 regularizer 를 16에는 절반할지 아니면 같게 할지

Understanding

l1 norm, reconstruction 하고 논문 metric 어떤 의미 가지는지 https://arxiv.org/pdf/2412.06410
visualize two ideas
왜 vanilla sae 오류나는지 코드 찾아보고 clipping? 이나 slack 물어보기

Training

gemma run
Tinytail run (roneneldan/TinyStories)
Nnet SAE training
 
 
 
 
 
 
 

Recommendations