2017년 발표된 트랜스포머 구조를 처음 발표한 논문
해당 논문은 Non-recurrent sequence to sequence encoder-decoder model을 만드는 것이 목표
Replaced RNN Encoder Decoder Model
Background
1. Sequential computation
sequence to sequence한 문제를 푸는 과정에서, Encoder-Decoder 구조의 RNN 모델들이 좋은 성능을 냈다.
2. Long term dependency
RNN의 경우, Long term dependency의 문제가 항상 따라다니고, CNN의 경우 kernel 안에서 O(1)이나, kernel 간 정보가 공유되지 않는다.
Model Architecture
6개의 stack - 하나의 인코더는 Self-Attention Layer와 Feed Forward Neural Network(2개의 Sub-layer)
- Encoder
- Multi-Head Attention
- Positional Encoding
- Relative Positioning
- The Residuals
- Decoder
Transformer Model hyperparameter
- 512
size of encode/decoder input/output dimension
num_layers
- 6
count of encoder/decoder
- 2048
feed forward network dimensionality