Multi-Query Attention per attention layer reduces KV cache size by 8X compared to the Grouped-Query Attention adopted in most open source models성능저하가 심하다 라마2에 적용된 추론 속도 향상 기술인 GQA(Grouped Query Attention)에 대해데보션 (DEVOCEAN) 기술 블로그 , 개발자 커뮤니티이자 내/외부 소통과 성장 플랫폼https://devocean.sk.com/blog/techBoardDetail.do?ID=165192&boardType=techBlog