where are you? im in malet engineering
Augustine Mavor-Parker
reinforcement learning Periodic Activation Function 도 봤는데 RL에 관심 있나?
RL과 mechanistic interpretability를 결합하려는 시도 해봤나 예를들어 sae policy로 두고 llm env로
- SAE 추출 feature 로 steering vector 쓸 수 있는것처럼 추출한 Circuit 으로 llm steering 되는건지
- superposition 되어있을텐데 neural circuit 분석을 monosemanticity 상태에서 뽑는게 맞을지 반대가 맞을 지
- My idea
- interprete RL agent mechanist SAE decision transformer
Automated LLM in
Anderon Rinch
Daniel Tan
Zekun
홀리스틱하고 어케 접선했고, 주제 어떻게 정했고, 70 candidate 주제 중에서 벗어난건지, 협업 프로젝트 변경 요청 프로세스 어케되는지
Seonglae Cho