Attention is all you need

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2020 Aug 23 11:15
Editor
Edited
Edited
2024 Jun 12 4:48
2017년 발표된 트랜스포머 구조를 처음 발표한 논문
해당 논문은 Non-recurrent sequence to sequence encoder-decoder model을 만드는 것이 목표
Replaced
RNN
Encoder Decoder Model
 

Background

1. Sequential computation

sequence to sequence한 문제를 푸는 과정에서, Encoder-Decoder 구조의 RNN 모델들이 좋은 성능을 냈다.

2. Long term dependency

RNN의 경우, Long term dependency의 문제가 항상 따라다니고, CNN의 경우 kernel 안에서 O(1)이나, kernel 간 정보가 공유되지 않는다.

Model Architecture

6개의 stack - 하나의 인코더는 Self-Attention Layer와 Feed Forward Neural Network(2개의 Sub-layer)
  • Encoder
  • Multi-Head Attention
  • Positional Encoding
  • Relative Positioning
  • The Residuals
  • Decoder
notion image
 

Transformer Model hyperparameter

- 512

size of encode/decoder input/output dimension

num_layers - 6

count of encoder/decoder

- 2048

feed forward network dimensionality
 
 

Author

pdf

 
 

Recommendations