Loading views...

Treensformer POC1

Date
Date
2024 Apr 15 0:0
Created by
Created by
Seonglae ChoSeonglae Cho
Created time
Created time
2024 Apr 14 17:47
Last edited by
Last edited by
Seonglae ChoSeonglae Cho
Last edited time
Last edited time
2024 Apr 15 6:20
Refs
Refs

Summary

  • 안되는 이유: residual stream에 따라 token distribution 이 계속 바뀌기 때문에 아예 말도안되는 steram 헛소리 나오는듯
  • Replacing strategy RMSnorm 이전이후는 별상관없는듯
 
 
 

Use final token

replace all token to context token

압축 안해도 안되는거 보니 distribution이 다르다

without padding final token only

with padding final token only

without padding이랑 같아야할거같지만 조금은 다르다
하지만 전반적으로 비슷한거 보니 구현문제는 아닌듯
 
 
another way
 
 
 
 
 

Recommendations