Byte pair encoding through BI-Gram Frequency
Method of finding meaningful prefixes or suffixes by separating at the character level
It can alleviate the Out-Of-Vocabulary problem
Set a predefined dictionary size or number of merges (K), or continue merging until the maximum pair frequency falls below a certain threshold.
BPE Notion
aclanthology.org
https://aclanthology.org/P16-1162.pdf
13-01 바이트 페어 인코딩(Byte Pair Encoding, BPE)
기계에게 아무리 많은 단어를 학습시켜도 세상의 모든 단어를 알려줄 수는 없는 노릇입니다. 만약 기계가 모르는 단어가 등장하면 그 단어를 단어 집합에 없는 단어란 의미에서 해당 토…
https://wikidocs.net/22592


Seonglae Cho