Self-Attention

각각의 단어마다 다른 단어가 의미를 파악하는데 얼마나 중요하게 작용하는지 측정하는 것

순서에 대한 정보를 포함하지 않아서

레이어당 계산량이 적고 계산을 병렬화할 수 있다.

Self attention 이라고 불리는 이유는 token embedding이라는 same source에서 KQV를 계산하기 때문 (self attending)

QKV에서 QK circuit의 수학적인 차이는 없지만 masking때문에 qk 사이 비대칭이 생기고 실제로 중요한건 QKV의 의미가 아니라 학습되는 weight (self attention에서 동일하고, 아니더라도 의미없었다)

Self-Attention notion

positional encoding 값을 token embedding에 더해주는 게 무슨 의미인지 모르겠어 주기성을 가지는 함수를 왜 쓰고

각각의 고유한 토큰 위치값은 유일한 값을 가져야 한다. 또한 서로 다른 두 토큰이 떨어져 있는 거리가 일정해야 한다

그러면 token embedding은 현재 읽고 있는 token의 위치별로 inference 마다 상대적인 위치로 달라지는 거야?