Absolute Positional Encoding

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2024 Mar 1 14:13
Editor
Edited
Edited
2024 Mar 2 7:6
Refs
Refs
  • d is model embedding dimension
  • i is index of embedding vector
  • p is token position of input text
전체적으로 위치별로 다른 frequency를 가지게 해서 인식가능하게 하고 even odd 함수 다르게 아는 거는 위상차로 위치별로 극도로 다르게 보이게 함
아래 수식의 핵심
  • embedding dimension에 따라 exponential한 position을 고려하기 위한 설계
  • 고주파 저주판 분리해 frequency로 position을 구분하기 위함
https://wikidocs.net/31379
즉 이론적으로 model embedding depth의 exponential한 position을 구분할 수 있다
결국 attention weight이 이런 수학적 position encoding에 fitting시키는 것 이런 함수의 설계는 embedding 끼리 구분만 되면 그만
 
 

Korean

 
 

Recommendations