LoRA Transformer Pretraining
- lora peft는 batch 6
- pretrain은 batch 3
근데 걸리는 시간 비슷함. 이러면 굳이? 그냥 full training으로 함
방향성
- 일단 training dataset구하기 쉬운 hannam으로 간다
- bottom up small lm은 한남-small, gemma-2b 기반은 hannam-md
- hannam chat fine tuning
Hannam MD
transformers space 만들어서 배포
hannam chat fine tuning 필요할까?
- 필요할듯 대화가 안이어진다
- 그런데 모델이 instruction dataset에 익숙해지면서 제약이 들어온다. 무지성 욕설이 안되는 느낌
namuwiki 필요할까?
- 멍청해서 논리 넣으려면 필요할듯
데이터들이 다 필요있다
여기서 처음 훈련때 fine tuning용 데이터인 comment를 먼저 날려줘서 initialization vector를 warmup지점으로 하는 선택이 좋은건가? Catastrophic forgetting 를 막을 수도 있고 첫경험이라
- 기본적 논리 - wiki
- 사회적 대화능력 - chat
- 욕설 comment
이번주 해야할것
Yokhal MD
namu, comment 학습
Yokhal Max
nanoGPT 개념
weight decay
checkpoint stuff
하나 훈련시킬때 너무 다른거 못하니까 2 tower로 Hannam LG용 인스턴스
일단 빨리 모델 push 하고 우선순위가 readme적는거
Distributed Huggingface accelerate config
Training history
- Comment 1.4epoch (1epoch 1297 step)
- 1700
e6902f4f04213a85e8aa0fae55e6d1ee955e4a61
- Wiki ~ 80000 steps 10%
30000 4%
parameter separating
gradient_accumulation_steps backward
calculate perplexity
huggingface chat으로 배포 (이거 중요한 거 아니니 뒷전으로)
Seonglae Cho