Loading views...

트랜스포머 리버스 엔지니어링해서 In-context learning 이해하기

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2024 Apr 16 2:59
Editor
Edited
Edited
2024 Apr 20 5:37
Refs
Refs
  • decoder only transformer 모델 구조의 추론에 대한 추상화 필요함
    • 인간과 기계를 위한 이해 readiblity는 다르다
  • residual stream의 대역폭으로서 정의
  • residual stream 에서 attention head의 역할과 mlp의 역할 비교
  • LLM연구하며 high level에서 얻는 insight들이 실제 작동에서는 다르게 적용되는 경우가 많다. 이는 우리가 LLM이 너무 사람과 같다 보니 ‘사람과 동일한 형태의 지능’ 이라고 착각해서 생기는 문제라고 생각한다. 최신 LLM의 Transformer가 작동하는 방식을 좀더 개별화하고 수학적으로 이해한다면 우리가 high level application에서도 정확한 insight를 얻는 데애 훨씬 유리할 것
  • transformer model이 linear transformation이기 때문에 pizza나 clock 같은 회전변환 혹은 평균은 당연한 것
  • in context learning, induction head, phase change
  • 이런 이해를 바탕으로 다음시간 TDB
 
 

SNS

In-context learning이 어떻게 attention mechanism으로 “발생”하는 지에 대해 phase change, feature dimensionality와 연관지어 설명해보았습니다.
 
 
 
 

Recommendations