Gemma Hannam 2b 연구

LoRA
Transformer Pretraining

lora peft는 batch 6

pretrain은 batch 3

근데 걸리는 시간 비슷함. 이러면 굳이? 그냥 full training으로 함

방향성

일단 training dataset구하기 쉬운 hannam으로 간다

bottom up small lm은 한남-small, gemma-2b 기반은 hannam-md

hannam chat fine tuning

Hannam MD

transformers space 만들어서 배포

hannam chat fine tuning 필요할까?

필요할듯 대화가 안이어진다

그런데 모델이 instruction dataset에 익숙해지면서 제약이 들어온다. 무지성 욕설이 안되는 느낌

namuwiki 필요할까?

멍청해서 논리 넣으려면 필요할듯

데이터들이 다 필요있다

여기서 처음 훈련때 fine tuning용 데이터인 comment를 먼저 날려줘서 initialization vector를 warmup지점으로 하는 선택이 좋은건가?

Catastrophic forgetting 를 막을 수도 있고 첫경험이라

기본적 논리 - wiki

사회적 대화능력 - chat

욕설 comment

이번주 해야할것

Yokhal MD

namu, comment 학습

Yokhal Max

nanoGPT 개념

weight decay

checkpoint stuff

하나 훈련시킬때 너무 다른거 못하니까 2 tower로 Hannam LG용 인스턴스

ReSRer Vessl

일단 빨리 모델 push 하고 우선순위가 readme적는거

Distributed
Huggingface accelerate config


compute_environment: LOCAL_MACHINE
debug: true
distributed_type: FSDP
downcast_bf16: 'no'
dynamo_config:
  dynamo_backend: TENSORRT
  dynamo_mode: default
  dynamo_use_dynamic: true
  dynamo_use_fullgraph: true
fsdp_config:
  fsdp_auto_wrap_policy: SIZE_BASED_WRAP
  fsdp_backward_prefetch: BACKWARD_PRE
  fsdp_cpu_ram_efficient_loading: true
  fsdp_forward_prefetch: false
  fsdp_min_num_params: 100000000
  fsdp_offload_params: true
  fsdp_sharding_strategy: FULL_SHARD
  fsdp_state_dict_type: SHARDED_STATE_DICT
  fsdp_sync_module_states: true
  fsdp_use_orig_params: false
machine_rank: 1
main_process_ip: 10.244.241.38
main_process_port: 8888
main_training_function: main
mixed_precision: bf16
num_machines: 2
num_processes: 2
rdzv_backend: static
same_network: true
tpu_env: []
tpu_use_cluster: false
tpu_use_sudo: false
use_cpu: false

Training history

Comment 1.4epoch (1epoch 1297 step)

1700 e6902f4f04213a85e8aa0fae55e6d1ee955e4a61

Wiki ~ 80000 steps 10%

30000 4%

parameter separating

gradient_accumulation_steps backward

calculate perplexity

huggingface chat으로 배포 (이거 중요한 거 아니니 뒷전으로)