RG-LRU

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2024 Mar 31 8:37
Editor
Edited
Edited
2024 Mar 31 8:41
Refs
Refs

Hawk

 
 
 

Griffin

사자 몸에 독수리처럼 Hawk에 Transformer 합친 것
Sliding window attention
와 RNN hidden state로 sLLM에서 long context 고려하기 좋다
Long context에서의 retrieval 성능은 MQA 트랜스포머에 비해 많이 떨어지지만, 순수 RNN인 Hawk보다는 좋다
학습 시의 context window 크기보다 긴 문장을 입력으로 넣을 경우, transformer는 거의 즉시
Extrapolation
에 실패하고 망가지는 반면, Griffin은 성능이 좀 더 유지되는 모습
 
 
 
 
 
 
 

Recommendations