handle discrete-value data, assume each x is Conditionally Independent
by applying chain rule
Is called naive becuz of 입력 변수들 간의 독립성을 가정하며, 이는 실제 데이터에서는 드물게 일어나기 때문에
그러나 이러한 가정 덕분에 모델 학습과 예측 속도가 빨라지며, 작은 데이터셋에서도 좋은 성능
Laplace Smoothing
각 범주에 pseudo-counts를 추가하여 영확률을 피한다
관찰되지 않은 특징의 확률은 0을 막기 위해 특정 클래스 레이블에 대한 각 특징의 클래스 조건부 확률을 추정하는 데 사용
This can be generalized as a MAP estimate w/ Dirichlet priors