Receptance Weighted Key Value
Parallelizable training
It has the advantage of having a simple inference process like RNN, and being able to learn in parallel and efficiently like a transformer.
Among models of similar size, it consumes the least energy per token. Works good for Multilingual tasks
RNN은 가장 최근 time step의 hidden state만 가지고 있으면 되기 때문에, 기존 context의 모든 token에 대해 KV Cache를 저장해야 하는 트랜스포머에 비해 inference 메모리 효율은 좋다. Training 시에 parallel이 문제인데 RWKV나 Reformer RNN이면서도 Transformer처럼 학습 시에는 여러 토큰에 대해 동시에 연산을 수행할 수 있도록 하는 구조
RWKV Implementation