Loading views...

Attention Head-Specific Memory

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2025 Jan 9 14:16
Editor
Edited
Edited
2025 Jan 9 14:19
Specific
Specific
Specific
Refs
Refs
Computable
Computable
Computable

Transformer Memory Layer

모델 구조에서 mlp 빼지 말고 memory layer를 attention mechanism 의 query 를 사용하도록 attention head 별로 개별 memory key value storage를 붙여주는 구조를 개발해보는 건 어떨까
  • flops는 올라감 mlp도 추가함으로 (기존 mlp가 기억을 담당한다.)
  • 각 Attention Head마다 독립적으로 정보를 저장하고 검색할 수 있도록 확장
  • 이를 통해 모델이 더 정밀하고 컨텍스트에 맞는 정보를 검색할 가능성이 커지며, 특히 복잡한 multi-modal 또는 hierarchical tasks에서 이점을 가질 수도
학습은 기존 pretrained model 에 addon 붙이는 방식으로 freeze해두고 학습하면 성능 개선될 확률 높음. 비교는 같은 parameter 수 늘이는 layer 늘이는 것과 비교해서 구조적 개선 보여주면 될듯.
 
 
 
 
chatgpt.com
 

Recommendations