Summary
- 안되는 이유: residual stream에 따라 token distribution 이 계속 바뀌기 때문에 아예 말도안되는 steram 헛소리 나오는듯
- Replacing strategy RMSnorm 이전이후는 별상관없는듯
Use final token
replace all token to context token
압축 안해도 안되는거 보니 distribution이 다르다
without padding final token only
with padding final token only
without padding이랑 같아야할거같지만 조금은 다르다
하지만 전반적으로 비슷한거 보니 구현문제는 아닌듯
another way
Seonglae Cho