Term frequency Inverse Document Frequency
- number of document in collection
- number of documents in which term appears
TF·IDF weighting has many variants
한 문서에서 단어가 등장하는 빈도가 높을수록 커지고
TF-IDF는 전체 문서에서 빈출되는 단어의 중요도는 낮다고 판단하고, 특정 문서에서만 빈출되는 단어는 중요도가 높다고 판단
코퍼스에서 해당 단어를 포함하는 문서가 많을수록 반비례해서 작아진다
토큰화가 되어있지 않은 텍스트 데이터를 입력으로 사용 → tf-idf matrix → decomposition