MoE SAE Training

Creator

Creator

Seonglae Cho

Created

Created

2025 Dec 2 22:7

Editor

Editor

Seonglae Cho

Edited

Edited

2025 Dec 2 22:44

Refs

Refs

Dataset

dclm 좋은것 같습니다. 추가로 고려할점은 gpt-oss 나 deepseek moe 같은 reasoning model sae 할때는 lmsys-chat-1m 하고 openr1 같은 데이터셋을 섞어서 training 하더라고요 최신 train된 sae들은

Experiment

flexolmo

gptoss

qwen

Recommendations

/////