Type of Autoregressive Model
이전 시점의 출력을 현재 시점의 입력으로 사용하여, 시퀀스 데이터를 생성하는 모델
단방향 모델을 통해 다음 단어를 예측, 추측하는 언어모델
Causal language model Usages
현재 값이 이전 값들의 선형 조합으로 나타나는 모델을 의미
Transformer의 Decoder만 사용하므로 이전 시점의 출력을 현재 시점의 입력으로 사용하여, 시퀀스 데이터를 생성하는 방식을 사용
이 방식은 문장 전체를 한 번에 처리하지 않고, 단어나 토큰 단위로 처리
이전 단어들을 기반으로 다음 단어를 예측 즉 문장 전체를 한 번에 처리하지 않기 때문에, 문장 전체를 볼 수 없다
Masked language modeling
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
https://huggingface.co/docs/transformers/tasks/masked_language_modeling
Some Intuition on Attention and the Transformer
What's the big deal, intuition on query-key-value vectors, multiple heads, multiple layers, and more.
https://eugeneyan.com/writing/attention/

Decoder models - Hugging Face NLP Course
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
https://huggingface.co/learn/nlp-course/chapter1/6?fw=pt

Seonglae Cho