Research Note CRL July 10th

Date

Date

2025 Jul 10 0:0 → 2025 Jul 21 0:0

Created by

Created by

Seonglae Cho

Created time

Created time

2025 Jul 10 0:1

Last edited by

Last edited by

Seonglae Cho

Last edited time

Last edited time

2025 Jul 21 15:54

Refs

Refs

pre hook 문제가 첫번재에는 모든 residual 들어오고 수정되는데

test time 에서 이전 토큰 residual 수정이 안되는 점이다.

그래서 residual 말고 kv 만 캐시되는거를 믿고 해야하는건지

이건 이전부터 알았지만 어차피 같은 layer token 간에 영향 없어서 sequential learning 도 안된다

layer norm 때문인지 minimum 엄청 큰거 안들어오면 layer post hook 걸어도 거의 차이 없길래 아마 매 genration 마다 residual 은 강제로 업데이트 해줘야할거같은데

안더해주고 이미 업데이트 잘되는거면 즉 안해줘도 된다는거면 결과가 안좋아서 더 절망적이다

개선방안

dynamic coefficient or gating so steeirng not miniumum

critic value 따라 낮을때만 하도록 유도

Token Entropy

layer 별로 나눠서 인과 주던가

parllelize 가능한건 나름 좋은거같긴함 인과 없이
다만 다음 layer strering observation 으로 하고 이전 layer steering 하면 좋을듯

초반 thinking 제한 둬서

Gemma transcoder

reasoning 말고 Bias 나 jailbreak 혹은 hallucination

문제해결 cot coding

sample wise thinking finishing index 구하기 어려움 # Left padding for context & right padding for answer

징그러운 퍼포먼스 오류

여기서 mmlu max new token 1 에 non cot 일때 도대체 왜 첫 validation 사용 unique indices 가 4 에서 400으로 늘어난걸가

모든커밋 가보며 실험 실행

원래 성능 나온 부분ㅂ이랑 diff 오 오만 부분 비교

seed 부터 데이터 정답판정등 개지랄했으나

transformer eager 가 문제였음

Cot Error

Recommendations

/