출력 노드부터 시작하여 모델의 동작에 중요한 경로를 따라 각 노드를 순차적으로 추적하다가 각 노드 간의 연결을 하나씩 Activation Patching 하여 연결을 임시로 끊고 모델의 성능 변화를 분석한 후, 성능이 크게 저하되지 않으면 해당 연결을 제거한다. 이 과정을 반복하면서 모델에서 중요한 연결만 남기고 불필요한 연결을 제거함으로써 회로를 추출한다.
Greater-Than
NIPS 2023 automated circuit discovery