CRL Train

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2025 Jul 21 0:43
Editor
Edited
Edited
2025 Jul 21 23:13
Refs
다른 레이어에 학습하니 성능이 확실히 낮은것, fixed feature 보다 나은 걸로 봐서 제대로 feature 찾는 효과 있다.
  • gemma
    • it pt sae l2 loss 24
      • 30 ~ 36
      • 24 ~ 28 when 23. 22
    • pt pt loss
      • 36 - 26~29
    • gradient norm
      • deep 이면 크고 아니면 거의 0
    • critic loss
      • 1 → 0.1, 0.05
    • policy loss
      • 1 → 0.1, 0.05
    • Unique indices
 
다른레이어에 학습하니 확실히 별로

제일 영향 큰거

  1. decode
      • 제일크다
  1. layer
    1. task wise 로 찾는거에는 젤중요함 decode 는 모든경우고
  1. select
      • mmlu 는 크고 bbq 는 적다 최대치에는 영향줌
  1. deep
      • 최대치 변수 중 하나
  1. loss
      • 가끔 최대치 영향줄정도
  1. shared
      • 크진 않은데 최대치 영향 줄정도
  1. activation
      • 많이 없는데 최대치 영향 줄정도
생각보다 적은거
  1. q
    1. 아직 못봄
  1. sigma
    1. 아직 못봄
minimum mines 로 할때 critic 이 minus 로 diverge 하는 오류 있었음
 
notion image
 
 
 
 

Recommendations