다른 레이어에 학습하니 성능이 확실히 낮은것, fixed feature 보다 나은 걸로 봐서 제대로 feature 찾는 효과 있다.
- gemma
- it pt sae l2 loss 24
- 30 ~ 36
- 24 ~ 28 when 23. 22
- pt pt loss
- 36 - 26~29
- gradient norm
- deep 이면 크고 아니면 거의 0
- critic loss
- 1 → 0.1, 0.05
- policy loss
- 1 → 0.1, 0.05
- Unique indices
다른레이어에 학습하니 확실히 별로
제일 영향 큰거
- decode
- 제일크다
- layer
- task wise 로 찾는거에는 젤중요함 decode 는 모든경우고
- select
- mmlu 는 크고 bbq 는 적다 최대치에는 영향줌
- deep
- 최대치 변수 중 하나
- loss
- 가끔 최대치 영향줄정도
- shared
- 크진 않은데 최대치 영향 줄정도
- activation
- 많이 없는데 최대치 영향 줄정도
생각보다 적은거
- q
- 아직 못봄
- sigma
- 아직 못봄
minimum mines 로 할때 critic 이 minus 로 diverge 하는 오류 있었음

Seonglae Cho