Residual stream에서 residual connection에 더해준다는 건 동일한 dimension에 embedding되어 사용된다는 것
기본 가정
- context embedding을 token embedding으로 재사용 할 수 있다 (positional embedding을 합친 input embedding으로 사용해야 할듯? 다만 전체 크기는 기억해두고 뒤에 오는 진짜 text들은 해당 positional embedding으로)
증명과정
qa를 passage별로 context vector 생성한 다음에 그걸 query encoding이랑 attention 해서 rerank?
fid랑 비교
POC
- Treensformer POC1
- 안되는 이유: residual stream에 따라 token distribution 이 계속 바뀌기 때문에 아예 말도안되는 steram 헛소리 나오는듯
- Replacing strategy RMSnorm 이전이후는 별상관없는듯
- Activation Beacon approach 사용하자
- github discussion 어떻게 beacon 만들었는지 insight 설계방향
- 논문이랑 코드보고 읽기 Infini Transformer
- 아니면 차라리 모델의 token embedding을 mean pooling이나 max pooling하는게 나을수도? 간단하기도 하고 컴퓨팅도 없어
- token 단위라 text 단위인 rag보다 안좋다
- max 는 다 비슷한 내용 되고 mean은 전혀 다른 내용 말함 (그나마 말이 된다는 점에서 제일 낫긴함)
- 토큰단위 context 포함안된 pooling은 아무의미 없는듯
Seonglae Cho