디코더 블럭에서 사용되는 특수한 Self-Attention
디코더는 Autoregressive 하기 때문에 이후단어 보지않고 예측해야
그래서 뒤에 보지 않도록 Masking한다
Self-attention enables the decoder to focus on different parts of the output generated so far.
디코더에서 출력 단어를 예측하는 매 시점마다, 단어와 연관이 있는 입력 단어 부분을 좀 더 집중
[딥러닝] 언어모델, RNN, GRU, LSTM, Attention, Transformer, GPT, BERT 개념 정리
언어모델에 대한 기초적인 정리
https://velog.io/@rsj9987/딥러닝-용어정리
![[딥러닝] 언어모델, RNN, GRU, LSTM, Attention, Transformer, GPT, BERT 개념 정리](https://www.notion.so/image/https%3A%2F%2Fimages.velog.io%2Fvelog.png?table=block&id=430d9fac-d259-498f-b3c9-1cef8bd9409f&cache=v2)

Seonglae Cho