RNN

RNN

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2021 Mar 12 15:14
Editor
Edited
Edited
2024 Nov 26 12:50

Recurrent Neural Network

위 식에서 이전 time step에 dependency 가 있기 때문에 cpu처럼 computing이 엄청 느려짐
RNN은 레이어 많이 쌓는다고 성능 늘어나지 않고 성능이 떨어지기도 한다 (scalability가 떨어짐)
RNN의 Encoder Decoder 모델은 encoder의 final hidden state를 context vector로 이용하여 decoder에게 제공하는 것이다
However, each decoder time step depends on the same encoder embedding. Attention solves these issues
notion image
 
A model suitable for a time series data like sequential data. RNN은 vector 정보를
Context Vector
Autoregressive
하게 섞는다
순차성때문에 병렬화가 안되어 대규모 데이터셋 학습이 불가능하고
Long-term dependency
문장이 길어질 경우 앞 단어의 정보를 잃어버리게. 그래도
Fully Connected Layer
보단 낫다
RNN 구조적으로 고정 길이의 hidden state 벡터에 모든 단어의 의미를 담아야 하기 때문에 문장이 길어지면 모든 단어 정보를 고정 길이 벡터에 담기 어렵다. 근데 그건 Transformer model도 똑같은데, 전체 dimension을 늘려서 전체 계산 전부 늘어나니
Multi-head Attention
Bottleneck layer
역할을 하는 것
Input Seq’s information lost so 보정하기 위해
Attention Mechanism
사용
Transformer Model
은 어텐션을 RNN의 보정을 위한 용도로서 사용하는 것이 아니라 (원래는 긴 text에 대해서 중요한 부분만 집중하려고 rnn에서 도입된 마지막 hidden state만 이용하는 게 아니라 유사도만큼만 각각의 token hidden state를 모두 병렬적으로 고려하는 테크닉) 인코더 디코더에도 사용하게 함. 즉 Decoder only Transformer model은 RNN의 autoregressive property의 방향성은 맞았다는 말. Transformer model은 RNN의 그런 직렬성을 없엠
RNN Notion
 
 
RNNs
 
 
 
https://arxiv.org/pdf/2307.08621.pdf
 
 
 

Andrej Karpathy

 
 

Recommendations