2021 MIT
Natural language descriptions of deep visual features
2023
2024
intervention scoring
sae-auto-interp
EleutherAI • Updated 2024 Nov 23 8:21
sae
EleutherAI • Updated 2024 Dec 11 6:38
기본 상태에서의 출력과 개입 후 출력을 비교하여, 해당 특징이 모델의 출력에 미친 영향을 분석
Gradual improvement with hypothesis Best-of-k sampling and small model by knowledge distillation