Loading views...

Gemma Hannam 2b 연구

Date
Date
2024 Feb 28 0:0 → 2024 Mar 7 0:0
Created by
Created by
Seonglae ChoSeonglae Cho
Created time
Created time
2024 Feb 28 12:35
Last edited by
Last edited by
Seonglae ChoSeonglae Cho
Last edited time
Last edited time
2024 Mar 12 12:36
Refs
Refs

LoRA
Transformer Pretraining

  • lora peft는 batch 6
  • pretrain은 batch 3
근데 걸리는 시간 비슷함. 이러면 굳이? 그냥 full training으로 함
 
 
 

방향성

  • 일단 training dataset구하기 쉬운 hannam으로 간다
  • bottom up small lm은 한남-small, gemma-2b 기반은 hannam-md
  • hannam chat fine tuning
 
 

Hannam MD

transformers space 만들어서 배포
hannam chat fine tuning 필요할까?
  • 필요할듯 대화가 안이어진다
  • 그런데 모델이 instruction dataset에 익숙해지면서 제약이 들어온다. 무지성 욕설이 안되는 느낌
namuwiki 필요할까?
  • 멍청해서 논리 넣으려면 필요할듯
데이터들이 다 필요있다
여기서 처음 훈련때 fine tuning용 데이터인 comment를 먼저 날려줘서 initialization vector를 warmup지점으로 하는 선택이 좋은건가?
Catastrophic forgetting
를 막을 수도 있고 첫경험이라
  • 기본적 논리 - wiki
  • 사회적 대화능력 - chat
  • 욕설 comment
 

이번주 해야할것

 
 

Yokhal MD

namu, comment 학습
 
 

Yokhal Max

 

nanoGPT 개념

weight decay
checkpoint stuff
 
 
 
하나 훈련시킬때 너무 다른거 못하니까 2 tower로 Hannam LG용 인스턴스
 
 
일단 빨리 모델 push 하고 우선순위가 readme적는거
 

Distributed
Huggingface accelerate config

 
 
 
 

Training history

  1. Comment 1.4epoch (1epoch 1297 step)
  • 1700 e6902f4f04213a85e8aa0fae55e6d1ee955e4a61
  1. Wiki ~ 80000 steps 10%
30000 4%
 
parameter separating
gradient_accumulation_steps backward
calculate perplexity
huggingface chat으로 배포 (이거 중요한 거 아니니 뒷전으로)
 
 
 

Recommendations