너무나 답답한 control rl 오류

아침에는 어제 타워브릿지 갔다 들어오며 세일해서 산 부라타 먹는데 오랜만에 너무 만족스러운 아침이라 행복하다. 다만 금요일 어제 gpu도 꺼져있었고 아침부터 하는데 마음 급하고 54 51 오류 때문에 해결도 안되고 계속 문제있어서 가기 전까지 너무 화내며 스트레스 받으며 침대 때리고 점심도 계란토마토로 때우는데 올리브 스프레스 발라도 화난다. 마음을 가라앉히며 콜라도 먹고 새벽까지 하다보니 아래처럼 차근차근 문제파악이랑 다음날 아침 테이트모던전 약속까지 문제해결에 나서다보니 엄청 오래 걸렸다. 결국 원인은 decode 와 direction 차이인데 amplifiing 인지 decode with bias 가 더 효과좋다. 여튼 해결하고 내일은 논다.

진행상환

의혹 2 eval batch size 에 따라 eval score 가 같은 샘플 셋에 다르게 나온다

15-25 에 50 min걸면 eval 60 나오는데 batch size 100에서만이고 10에서는 58 5에서는 뭐 다양함

epsilon 영향이 생각보다 큰데 이거 없에면 성능 너무 떨어지고 같은 feature 만 골라서 그리고 epsilon 크기 줄이거나 없에도 random 성 유지된다

tokenizer left 문제인 줄 알았는데 bos 만 뽑히는 것도 아닌거 보니 right 정렬은 되어있는듯

batch size 자체가 computation seed 되기도 한다는데 그거때문인가 하는데 변량이 크다

의혹 3

일단 model 문제 아닌건 알았다 이전코드에 ppo model 이식후 54 유지 확인

eval script 문제인것 확인 → 모델 이식한 코드베이스에 이후코드 학습모델 삽입하니 54 유지확인

steering hook 이식 후 eval → 성능 내려간다 여기가 확실한 원인 맞는듯

steering hook 이식 후 train / eval

계획

eval script 로 54 재구현 이후 baseline 다시계산

또 완전 메인 코드베이스에 넣으니 안된다

완전반영 겨우해결

너무나 답답한 control rl 오류

진행상환

계획

Recommendations