Attention Head-Specific Memory

모델 구조에서 mlp 빼지 말고 memory layer를 attention mechanism 의 query 를 사용하도록 attention head 별로 개별 memory key value storage를 붙여주는 구조를 개발해보는 건 어떨까

이를 통해 모델이 더 정밀하고 컨텍스트에 맞는 정보를 검색할 가능성이 커지며, 특히 복잡한 multi-modal 또는 hierarchical tasks에서 이점을 가질 수도

학습은 기존 pretrained model 에 addon 붙이는 방식으로 freeze해두고 학습하면 성능 개선될 확률 높음. 비교는 같은 parameter 수 늘이는 layer 늘이는 것과 비교해서 구조적 개선 보여주면 될듯.