The original paper that introduced the Transformer architecture in 2017
해당 논문은 Non-recurrent sequence to sequence encoder-decoder model을 만드는 것이 목표
Replaced RNN Encoder Decoder Model
Background
1. Sequential computation
sequence to sequence한 문제를 푸는 과정에서, Encoder-Decoder 구조의 RNN 모델들이 좋은 성능을 냈다.
2. Long term dependency
RNN의 경우, Long term dependency의 문제가 항상 따라다니고, CNN의 경우 kernel 안에서 O(1)이나, kernel 간 정보가 공유되지 않는다.
Model Architecture
6개의 stack - 하나의 인코더는 Self-Attention Layer와 Feed Forward Neural Network(2개의 Sub-layer)
- Encoder
- Multi-Head Attention
- Positional Encoding
- Relative Positioning
- The Residuals
- Decoder

Transformer Model hyperparameter
- 512
size of encode/decoder input/output dimension
num_layers - 6
count of encoder/decoder
- 2048
feed forward network dimensionality
Author
Attention Is All You Need(transformer) paper 정리
2020.01.20 먼저, 해당 논문은 Non-recurrent sequence to sequence encoder-decoder model을 만드는 것이 목표이다. sequence to sequence한 문제를 푸는 과정에서, Encoder-Decoder 구조의 RNN 모델들이 좋은 성능을 냈다. RNN의 경우, Long term dependency의 문제가 항상 따라다니고, CNN의 경우 kernel 안에서 O(1)이나, kernel 간 정보가 공유되지 않는다. 인코더의 경우는, 논문에서 6개의 stack으로 구성되어 있다고 했다.
https://medium.com/@omicro03/attention-is-all-you-need-transformer-paper-%EC%A0%95%EB%A6%AC-83066192d9ab
점프 투 파이썬
점프 투 파이썬 오프라인 책(개정판) 출간 !! (2019.06) ** * [책 구입 안내](https://wikidocs.net/4321) 이 책은 파이썬 ...
https://wikidocs.net/31379

Baseline
- Attend
- Compare
- Aggregate

Seonglae Cho