Attention is all you need

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2020 Aug 23 11:15
Editor
Edited
Edited
2025 Jan 14 11:59

The original paper that introduced the Transformer architecture in 2017

해당 논문은 Non-recurrent sequence to sequence encoder-decoder model을 만드는 것이 목표
Replaced
RNN
Encoder Decoder Model
 

Background

1. Sequential computation

sequence to sequence한 문제를 푸는 과정에서, Encoder-Decoder 구조의 RNN 모델들이 좋은 성능을 냈다.

2. Long term dependency

RNN의 경우, Long term dependency의 문제가 항상 따라다니고, CNN의 경우 kernel 안에서 O(1)이나, kernel 간 정보가 공유되지 않는다.

Model Architecture

6개의 stack - 하나의 인코더는 Self-Attention Layer와 Feed Forward Neural Network(2개의 Sub-layer)
  • Encoder
  • Multi-Head Attention
  • Positional Encoding
  • Relative Positioning
  • The Residuals
  • Decoder
notion image
 

Transformer Model hyperparameter

- 512

size of encode/decoder input/output dimension

num_layers - 6

count of encoder/decoder

- 2048

feed forward network dimensionality
 
 

Author

ashVaswani

pdf

arxiv.org
Attention Is All You Need(transformer) paper 정리
2020.01.20 먼저, 해당 논문은 Non-recurrent sequence to sequence encoder-decoder model을 만드는 것이 목표이다. sequence to sequence한 문제를 푸는 과정에서, Encoder-Decoder 구조의 RNN 모델들이 좋은 성능을 냈다. RNN의 경우, Long term dependency의 문제가 항상 따라다니고, CNN의 경우 kernel 안에서 O(1)이나, kernel 간 정보가 공유되지 않는다. 인코더의 경우는, 논문에서 6개의 stack으로 구성되어 있다고 했다.
Attention Is All You Need(transformer) paper 정리
점프 투 파이썬
점프 투 파이썬 오프라인 책(개정판) 출간 !! (2019.06) ** * [책 구입 안내](https://wikidocs.net/4321) 이 책은 파이썬 ...
점프 투 파이썬

Baseline

  • Attend
  • Compare
  • Aggregate
aclanthology.org
 
 
 

Recommendations