누락 데이터(Missing value)를 처리하는 7가지 방법 / Data Imputation
누락 데이터를 통계적으로 처리하는 유명한 방법들 실세계 데이터는 다양한 원인 때문에 누락 데이터를 포함하고 있다. 데이터에서 None, NaN, 빈칸으로 표시되는 것들이 누락 데이터이다. 이러한 누락된 값이 많은 데이터셋으로 머신러닝 모델을 학습시키면 모델의 품질에 큰 영향을 미친다. Scikit-learn Estimator 같은 일부 알고리즘은 모든 값이 의미 있는 값을 가지고 있다고 가정하기 때문이다. Missing value는 다음과 같은 3가지 타입이 있다. Missing completely at random (MCAR) Missing at random (MAR) Not missing at random (NMAR) 이 글에서는 cross-sectional 데이터셋의 missing value를 처리..
https://dining-developer.tistory.com/19