Self Attention is the core feature
Transformer is the first thing that actually scales. Before the Transformer, RNN such as LSTEM and stacking them does not get clean scaling.
The Transformer gains a wider perspective and can attend to multiple interaction levels within the input sentence.CNN RNN 과 달리 거리가 먼 Long-term dependency 개선 한 게 큰 의의이다. Transformer Model is not just proficient in Language modeling but also versatile token sequence model with broader application across domains.
모든 토큰을 동시에 받아 연산하기 때문에 병렬연산이 가능하고, 논문은 기존의 Attention Mechanism과는 다르게 각 벡터가 모두 가중치 벡터로 사용
이 논문 이후 대세의 변경점은 Layer Normalization의 적용위치나 RMS Normalization로 대체, 그리고 FFN activation 으로 GLU가 사용 등이 있다.
Transformer Model Notion
Transformer Models