Loading views...

Research Note CRL July 10th

Date
Date
2025 Jul 10 0:0 → 2025 Jul 21 0:0
Created by
Created by
Seonglae ChoSeonglae Cho
Created time
Created time
2025 Jul 10 0:1
Last edited by
Last edited by
Seonglae ChoSeonglae Cho
Last edited time
Last edited time
2025 Jul 21 15:54
Refs
Refs
pre hook 문제가 첫번재에는 모든 residual 들어오고 수정되는데
test time 에서 이전 토큰 residual 수정이 안되는 점이다.
그래서 residual 말고 kv 만 캐시되는거를 믿고 해야하는건지
이건 이전부터 알았지만 어차피 같은 layer token 간에 영향 없어서 sequential learning 도 안된다
layer norm 때문인지 minimum 엄청 큰거 안들어오면 layer post hook 걸어도 거의 차이 없길래 아마 매 genration 마다 residual 은 강제로 업데이트 해줘야할거같은데
안더해주고 이미 업데이트 잘되는거면 즉 안해줘도 된다는거면 결과가 안좋아서 더 절망적이다

개선방안

  • dynamic coefficient or gating so steeirng not miniumum
    • critic value 따라 낮을때만 하도록 유도
  • layer 별로 나눠서 인과 주던가
    • parllelize 가능한건 나름 좋은거같긴함 인과 없이
    • 다만 다음 layer strering observation 으로 하고 이전 layer steering 하면 좋을듯
  • 초반 thinking 제한 둬서
  • Gemma transcoder
  • reasoning 말고 Bias 나 jailbreak 혹은 hallucination
 

문제해결 cot coding

sample wise thinking finishing index 구하기 어려움 # Left padding for context & right padding for answer
 

징그러운 퍼포먼스 오류

여기서 mmlu max new token 1 에 non cot 일때 도대체 왜 첫 validation 사용 unique indices 가 4 에서 400으로 늘어난걸가
  1. 모든커밋 가보며 실험 실행
  1. 원래 성능 나온 부분ㅂ이랑 diff 오 오만 부분 비교
  1. seed 부터 데이터 정답판정등 개지랄했으나
  1. transformer eager 가 문제였음
 
 
 
 
 
 

Cot Error

 
 

Recommendations