Texonom
Texonom
/
Engineering
Engineering
/Data Engineering/Artificial Intelligence/AI Object/NLP/Text Tokenizer/Subword Tokenizer/
BPE
Search

BPE

Creator
Creator
Seonglae Cho
Created
Created
2022 Dec 18 8:13
Editor
Editor
Seonglae Cho
Edited
Edited
2025 May 20 21:5
Refs
Refs
Zero shot learning
minbpe
karpathy • Updated 2024 Feb 21 9:12

Byte pair encoding

Method of finding meaningful prefixes or suffixes by separating at the character level
It can alleviate the Out-Of-Vocabulary problem
Set a predefined dictionary size or number of merges (K), or continue merging until the maximum pair frequency falls below a certain threshold.
BPE Notion
BPE Dropout
 
 
 
 
aclanthology.org
https://aclanthology.org/P16-1162.pdf
13-01 바이트 페어 인코딩(Byte Pair Encoding, BPE)
기계에게 아무리 많은 단어를 학습시켜도 세상의 모든 단어를 알려줄 수는 없는 노릇입니다. 만약 기계가 모르는 단어가 등장하면 그 단어를 단어 집합에 없는 단어란 의미에서 해당 토…
13-01 바이트 페어 인코딩(Byte Pair Encoding, BPE)
https://wikidocs.net/22592
13-01 바이트 페어 인코딩(Byte Pair Encoding, BPE)
 
 

Backlinks

Text TokenizerText Tokenizer

Recommendations

Texonom
Texonom
/
Engineering
Engineering
/Data Engineering/Artificial Intelligence/AI Object/NLP/Text Tokenizer/Subword Tokenizer/
BPE
Copyright Seonglae Cho