Transformer Memory Layer
모델 구조에서 mlp 빼지 말고 memory layer를 attention mechanism 의 query 를 사용하도록 attention head 별로 개별 memory key value storage를 붙여주는 구조를 개발해보는 건 어떨까
- flops는 올라감 mlp도 추가함으로 (기존 mlp가 기억을 담당한다.)
- 각 Attention Head마다 독립적으로 정보를 저장하고 검색할 수 있도록 확장
- 이를 통해 모델이 더 정밀하고 컨텍스트에 맞는 정보를 검색할 가능성이 커지며, 특히 복잡한 multi-modal 또는 hierarchical tasks에서 이점을 가질 수도
학습은 기존 pretrained model 에 addon 붙이는 방식으로 freeze해두고 학습하면 성능 개선될 확률 높음. 비교는 같은 parameter 수 늘이는 layer 늘이는 것과 비교해서 구조적 개선 보여주면 될듯.
chatgpt.com
https://chatgpt.com/g/g-p-6762eaf0e6c08191bbe8f2e5939f2ed0-ai/c/677fd82f-7a98-8007-b476-7ac5e658117b
Seonglae Cho