TF-IDF

Creator
Creator
Seonglae Cho
Created
Created
2022 Apr 3 14:39
Editor
Edited
Edited
2025 Jan 15 15:32

Term frequency
×\times
Inverse Document Frequency

IDFt=log10(N/nt)IDF_t = log_{10}(N/n_t)
  • N=N= number of document in collection
  • nt=n_t = number of documents in which term tt appears
tft×idfttf_t \times idf_t
TF·IDF weighting has many variants
notion image
한 문서에서 단어가 등장하는 빈도가 높을수록 커지고
TF-IDF는 전체 문서에서 빈출되는 단어의 중요도는 낮다고 판단하고, 특정 문서에서만 빈출되는 단어는 중요도가 높다고 판단
코퍼스에서 해당 단어를 포함하는 문서가 많을수록 반비례해서 작아진다
토큰화가 되어있지 않은 텍스트 데이터를 입력으로 사용 → tf-idf matrix → decomposition
 
 
 
 
 
 
 

Recommendations