Small (default 12 layers): 117M parameters
Reddit Data 40GB
Task에 따른 Fine tuning 없이 기존 Task의 SOTA 모델들을 넘어섬
잘 학습된 LLM 모델 하나로 모든 Task를 할 수 있을지도 모른다는 임팩트


Small (default)
- 117M
- 12 layers
- 12 attention heads per layer
- 768 hidden dim
Seonglae Cho
Seonglae Cho
