Hawk
Griffin
사자 몸에 독수리처럼 Hawk에 Transformer 합친 것
Sliding window attention 와 RNN hidden state로 sLLM에서 long context 고려하기 좋다
Long context에서의 retrieval 성능은 MQA 트랜스포머에 비해 많이 떨어지지만, 순수 RNN인 Hawk보다는 좋다
학습 시의 context window 크기보다 긴 문장을 입력으로 넣을 경우, transformer는 거의 즉시 Extrapolation 에 실패하고 망가지는 반면, Griffin은 성능이 좀 더 유지되는 모습