큰 모델이 가지고 있는 추가적인 정보를 작은 모델에게 전달하는 것을 의미일반적인 교육 데이터에서 얻을 수 없는 추가적인 지식불확실성 정보나 클래스 간 상대적인 유사성Dark Knowledge를 잘 활용하면 작은 모델이 더 나은 성능을 발휘