TF-IDF + passage lengthTwo Poisson model검색엔진, 추천 시스템 등에서 아직까지도 많이 사용되는 알고리즘BM25(D,Q)=∑w∈QIDF(w)⋅f(w,D)⋅(k1+1)f(w,D)+k1⋅(1−b+b⋅∣D∣avgDL) \text{BM25}(D, Q) = \sum_{w \in Q} \frac{IDF(w) \cdot f(w, D) \cdot (k_1 + 1)}{f(w, D) + k_1 \cdot (1 - b + b \cdot \frac{|D|}{\text{avgDL}})} BM25(D,Q)=∑w∈Qf(w,D)+k1⋅(1−b+b⋅avgDL∣D∣)IDF(w)⋅f(w,D)⋅(k1+1) BM25+Relevance Feedback based on Contingency Table S(D)=∑i∈Qlog(ri+0.5)/(R−ri+0.5)(ni−ri+0.5)/(N−ni−R+ri+0.5)⋅(k1+1)fiK+fi⋅(k2+1)qfik2+qfiS(D) = \sum_{i \in Q} \log \frac{(r_i + 0.5) / (R - r_i + 0.5)}{(n_i - r_i + 0.5) / (N - n_i - R + r_i + 0.5)} \cdot \frac{(k_1 + 1) f_i}{K + f_i} \cdot \frac{(k_2 + 1) q f_i}{k_2 + q f_i} S(D)=∑i∈Qlog(ni−ri+0.5)/(N−ni−R+ri+0.5)(ri+0.5)/(R−ri+0.5)⋅K+fi(k1+1)fi⋅k2+qfi(k2+1)qfi Okapi BM25In information retrieval, Okapi BM25 (BM is an abbreviation of best matching) is a ranking function used by search engines to estimate the relevance of documents to a given search query. It is based on the probabilistic retrieval framework developed in the 1970s and 1980s by Stephen E. Robertson, Karen Spärck Jones, and others.https://en.wikipedia.org/wiki/Okapi_BM25(4강) Passage Retrieval - Sparse Embedding강의소개4강에서는 단어기반 문서 검색에 대해 배워보겠습니다. 먼저 문서 검색 (Passage retrieval)이란 어떤 문제인지에 대해 알아본 후, 문서 검색을 하는 방법에 대해 알아보겠습니다. 문서 검색을 하기 위해서는 문서를 embedding의 형태로 변환해 줘야https://velog.io/@changyong93/4강-Passage-Retrieval-Sparse-Embedding#bm25란