M2
Monarch 매트릭스를 사용하여 시퀀스와 모델 차원에서의 혼합 작업을 수행합니다. 이는 전통적인 어텐션 메커니즘을 대체
Monarch matrices are a sub-quadratic primitive (you can compute them in that are also hardware-efficient and expressive

Monarch Mixer Notion
Long-Context Retrieval Models with Monarch Mixer
https://hazyresearch.stanford.edu/blog/2024-01-11-m2-bert-retrieval

arxiv.org
https://arxiv.org/pdf/2310.12109.pdf

Seonglae Cho