Cross-Model Patching
Training for Mapping
작은 모델을 더 큰 모델로 설명
If the representations between two models are different, an optimal mapping function such as a linear transformation matrix is learned using specific training data to reduce that difference.
Expressive Decoding
SAE 처럼 학습 필요없이 그리고 activation vector값을 llm explainer 처럼 일부만 사용하지 않고 자연어로 정확하게 설명 가능한 것이
source prompt
inspection prompt
Multi-hop patching
각 단계가 개별적으로는 맞지만 그 연결이 실패하는 경우, 모델의 중간 표현을 특정 레이어에서 추출하여 다른 레이어에 패치함으로써 정확한 답을 도출할 수 있게 수정하는 과정
for example
Sushi의 원산지 국가에서 가장 큰 도시는 무엇인가?"라는 질문에 대해 모델이 Sushi의 원산지를 '일본'으로 인식한 후, 일본의 가장 큰 도시 '도쿄'를 도출해야
추출한 히든 표현을 적절한 다른 레이어에 주입하여 추론을 이어가도록 수정.
‣