Self-Attention process

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2023 Oct 6 7:25
Editor
Edited
Edited
2023 Oct 6 7:25
Refs
Refs
  1. 특정 단어의 쿼리(q) 벡터와 모든 단어의 키(k) 벡터를 내적한다. 내적해서 나온 값은 Attention Score가 된다.
  1. 보정으로 트랜스포머에서는 이 가중치를 q,k,v 벡터 차원 dk 의 제곱근인 dk로 나누어 준다.
  1. Softmax로 쿼리에 해당하는 단어와 문장 내 다른 단어가 가지는 관계의 비율 계산
  1. Value 각 단어의 벡터를 곱해준 후 모두 더한다.
 
 
 
 
 
 
 
 
 

Recommendations