TreeFormer POC

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2024 Apr 14 6:45
Editor
Edited
Edited
2024 Apr 15 15:44
Refs
Refs

Residual stream에서 residual connection에 더해준다는 건 동일한 dimension에 embedding되어 사용된다는 것

기본 가정

  • context embedding을 token embedding으로 재사용 할 수 있다 (positional embedding을 합친 input embedding으로 사용해야 할듯? 다만 전체 크기는 기억해두고 뒤에 오는 진짜 text들은 해당 positional embedding으로)
 

증명과정

qa를 passage별로 context vector 생성한 다음에 그걸 query encoding이랑 attention 해서 rerank?
fid랑 비교
 
 
 
 

POC

  • Treensformer POC1
      • 안되는 이유: residual stream에 따라 token distribution 이 계속 바뀌기 때문에 아예 말도안되는 steram 헛소리 나오는듯
      • Replacing strategy RMSnorm 이전이후는 별상관없는듯
  • 아니면 차라리 모델의 token embedding을 mean pooling이나 max pooling하는게 나을수도? 간단하기도 하고 컴퓨팅도 없어
    • token 단위라 text 단위인 rag보다 안좋다
    • max 는 다 비슷한 내용 되고 mean은 전혀 다른 내용 말함 (그나마 말이 된다는 점에서 제일 낫긴함)
    • 토큰단위 context 포함안된 pooling은 아무의미 없는듯
 
 
 
 
 
 

Recommendations