BERT Structure

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2023 May 1 16:10
Editor
Edited
Edited
2023 May 2 2:57
Refs
Refs
Transformer의 인코더 블럭만 12개 쌓아올려 만든 모델
pre-trained large language model
BERT는 자연언어 처리 태스크를 교육 없이 양방향으로 사전학습하는 첫 시스템
인공지능이 사람의 말을 이해할 수 있도록 하는 딥러닝 모델
쉽게말하면 의도파악하는 모델
단어를 다른 단어와의 관계 속에서 이해할 수 있는 수학적 모델
단어들의 조합이 이런 의미를 갖는다는 것
두가지 special token을 가지고 있는 특징
  • CLS : Classification, 입력의 맨 앞에 위치하는 토큰
  • SEP : Separation, 사전학습시 텍스트를 두 부분으로 나누어 넣게 되는데 첫번째 문장의 끝과 두번째 문장의 끝에 위치하여 첫번째 문장과 두번째 문장을 나누어주는 역할

BERT Pre Training

  • MLM (Masked Language Model)
    • BERT는 빈칸 채우기를 하면서 언어를 학습하게 된다.사전 학습 과정에서 레이블링이 되지 않은 말뭉치 중에서 랜덤으로 15%가량의 단어를 마스킹한다. 그리고 마스킹된 위치의 단어를 예측하는 방식으로 학습을 진행한다.
  • NSP(Next Sentence Prediction)
    • 모델이 문맥에 맞는 이야기를 하는지 아니면 동문서답을 하는지를 판단하며 학습하는 방식이다.
 
 
 
 
 

Recommendations