MoE SAE Training

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2025 Dec 2 22:7
Editor
Edited
Edited
2025 Dec 2 22:44
Refs
Refs

Dataset

dclm 좋은것 같습니다. 추가로 고려할점은 gpt-oss 나 deepseek moe 같은 reasoning model sae 할때는 lmsys-chat-1m 하고 openr1 같은 데이터셋을 섞어서 training 하더라고요 최신 train된 sae들은

Experiment

  • flexolmo
  • gptoss
  • qwen
 
 
 
 
 
 
 
 

Recommendations