Hawk
Griffin
사자 몸에 독수리처럼 Hawk에 Transformer 합친 것
Sliding window attention 와 RNN hidden state로 sLLM에서 long context 고려하기 좋다
Long context에서의 retrieval 성능은 MQA 트랜스포머에 비해 많이 떨어지지만, 순수 RNN인 Hawk보다는 좋다
학습 시의 context window 크기보다 긴 문장을 입력으로 넣을 경우, transformer는 거의 즉시 Extrapolation 에 실패하고 망가지는 반면, Griffin은 성능이 좀 더 유지되는 모습
TensorFlow KR | On-device AI에서나 데이터센터 AI에서나 inference를 위해 풀어야 하는 문제...
On-device AI에서나 데이터센터 AI에서나 inference를 위해 풀어야 하는 문제 자체가 바뀌지는 않습니다만 아무래도 On-device AI에서는 더 열악한 환경에서 풀어야 한다는 점을 무시할 수 없습니다. 예를 들어서 최신 스마트폰은 10~16GB 정도의 메인 메모리를 들고 나오는데, 그 비싼 HBM를 팍팍 달고 있는 AI 데이터센터향...
https://www.facebook.com/groups/TensorFlowKR/permalink/2252038391803873/


Seonglae Cho