RWKV

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2023 May 28 15:38
Editor
Edited
Edited
2024 Mar 31 8:36
Refs
Refs

Receptance Weighted Key Value

Parallelizable training

It has the advantage of having a simple inference process like RNN, and being able to learn in parallel and efficiently like a transformer.
Among models of similar size, it consumes the least energy per token. Works good for Multilingual tasks
RNN은 가장 최근 time step의 hidden state만 가지고 있으면 되기 때문에, 기존 context의 모든 token에 대해 KV Cache를 저장해야 하는 트랜스포머에 비해 inference 메모리 효율은 좋다. Training 시에 parallel이 문제인데 RWKV나
Reformer
RNN이면서도 Transformer처럼 학습 시에는 여러 토큰에 대해 동시에 연산을 수행할 수 있도록 하는 구조
RWKV Implementation
 
 
 
 
 
 

Recommendations