트랜스포머 리버스 엔지니어링해서 In-context learning 이해하기

LLM연구하며 high level에서 얻는 insight들이 실제 작동에서는 다르게 적용되는 경우가 많다. 이는 우리가 LLM이 너무 사람과 같다 보니 ‘사람과 동일한 형태의 지능’ 이라고 착각해서 생기는 문제라고 생각한다. 최신 LLM의 Transformer가 작동하는 방식을 좀더 개별화하고 수학적으로 이해한다면 우리가 high level application에서도 정확한 insight를 얻는 데애 훨씬 유리할 것

transformer model이 linear transformation이기 때문에 pizza나 clock 같은 회전변환 혹은 평균은 당연한 것

In-context learning이 어떻게 attention mechanism으로 “발생”하는 지에 대해 phase change, feature dimensionality와 연관지어 설명해보았습니다.