CRL Train

Creator

Creator

Seonglae Cho

Created

Created

2025 Jul 21 0:43

Editor

Editor

Seonglae Cho

Edited

Edited

2025 Jul 21 23:13

Refs

Refs

다른 레이어에 학습하니 성능이 확실히 낮은것, fixed feature 보다 나은 걸로 봐서 제대로 feature 찾는 효과 있다.

gemma

it pt sae l2 loss 24

30 ~ 36
24 ~ 28 when 23. 22

pt pt loss

36 - 26~29

gradient norm

deep 이면 크고 아니면 거의 0

critic loss

1 → 0.1, 0.05

policy loss

1 → 0.1, 0.05

Unique indices

다른레이어에 학습하니 확실히 별로

제일 영향 큰거

decode

제일크다

layer

task wise 로 찾는거에는 젤중요함 decode 는 모든경우고

select

mmlu 는 크고 bbq 는 적다 최대치에는 영향줌

deep

최대치 변수 중 하나

loss

가끔 최대치 영향줄정도

shared

크진 않은데 최대치 영향 줄정도

activation

많이 없는데 최대치 영향 줄정도

생각보다 적은거

q

아직 못봄

sigma

아직 못봄

minimum mines 로 할때 critic 이 minus 로 diverge 하는 오류 있었음

notion image

Recommendations

//////