Think before you speak, Filler token
inference 뿐만 아니라 context 사이사이 적절한 곳 찾아서 넣어도 좋을 듯 우리가 먼저 읽을 때 깊이 생각하고 이해하고 답하는 것처럼
Context Vector 를 개선하는 역할로 attention layer를 제한된 개수가 아니라 여러번 재사용하는 효과를 가진다. 정확히 MoD 와 반대의 역할을 한다.
인간의 행동을 모방하여 pause token에서만 autoregressive한게 아니라 bi-directional 하게 padding없에봐도 좋은 결과 나올수도?
우리는 평소 의식의 흐름대로 말할 때도 있지만 심사숙고하는 과정도 필요함