dimension 별로 optimizer가 관리하는 건 이상하다 anthropic처럼 차원에 따라 다른 문제가 발생할 수 있기 때문에 차라리 토큰별로 관리하는 게 더 적합하다. 하지만 이를 위해석 back propagation 이후에 forward propagatipn이 토큰단위 normalized 혹은 aggregate 되어 실행될것
Forward Forward Algorithm 보다 좀더 하이레벨 접근하여 token 단위
forward pass를 사용하여 가중치를 업데이트
induced incentive로 token의 개별적 업데이트를 하는 게 더 바람직하다면 할말은 없지만 시도해볼만한 방식
Seonglae Cho