pre hook 문제가 첫번재에는 모든 residual 들어오고 수정되는데
test time 에서 이전 토큰 residual 수정이 안되는 점이다.
그래서 residual 말고 kv 만 캐시되는거를 믿고 해야하는건지
이건 이전부터 알았지만 어차피 같은 layer token 간에 영향 없어서 sequential learning 도 안된다
layer norm 때문인지 minimum 엄청 큰거 안들어오면 layer post hook 걸어도 거의 차이 없길래 아마 매 genration 마다 residual 은 강제로 업데이트 해줘야할거같은데
안더해주고 이미 업데이트 잘되는거면 즉 안해줘도 된다는거면 결과가 안좋아서 더 절망적이다
개선방안
- dynamic coefficient or gating so steeirng not miniumum
- critic value 따라 낮을때만 하도록 유도
- layer 별로 나눠서 인과 주던가
- parllelize 가능한건 나름 좋은거같긴함 인과 없이
- 다만 다음 layer strering observation 으로 하고 이전 layer steering 하면 좋을듯
- 초반 thinking 제한 둬서
- Gemma transcoder
- reasoning 말고 Bias 나 jailbreak 혹은 hallucination
문제해결 cot coding
sample wise thinking finishing index 구하기 어려움 # Left padding for context & right padding for answer
징그러운 퍼포먼스 오류
여기서 mmlu max new token 1 에 non cot 일때 도대체 왜 첫 validation 사용 unique indices 가 4 에서 400으로 늘어난걸가
- 모든커밋 가보며 실험 실행
- 원래 성능 나온 부분ㅂ이랑 diff 오 오만 부분 비교
- seed 부터 데이터 정답판정등 개지랄했으나
- transformer eager 가 문제였음
Seonglae Cho