OpenAI GPT (Radford et al., 2018; released in 2018/6)12개의 Transformer Decoder layers모델의 크기가 Pretrained Model의 성능에 영향을 준다라는 시사점FFNN 대신에 Conv1D 를 사용했는데, 대규모학습시 좋다고 알려져 있다.