단어의 사용 빈도도 power law를 따르기 때문에 데이터 상에서 균등하게 학습시키기는 어렵다BTS나 뉴진스가 데이터의 대부분을 차지하지만, 나머지 사람들이 실제의 대부분인 것처럼 Word EmbeddingsWord2VecOne Hot encodingCo-occurrence matrix Word DistancesEdit DistanceWordNet