- 숨은 상태 추출
- CoT 생성 중 각 토큰에 대응하는 transformer의 hidden state 벡터를 저장
- 예) ht∈Rdh_t \in \mathbb{R}^dht∈Rd (t번째 토큰 출력 직전의 내부 표현)
- Steering Vector 정의
- 안전(desired)·비안전(undesired) 예시를 모아 ‘차별적 활성화(contrastive activation)’로 hidden state를 비교
- 안전한 예시의 평균 숨은 상태와, 위험한 예시의 평균 숨은 상태 차이를 “steering vector” v=hˉsafe−hˉunsafev = \bar h_{\text{safe}} - \bar h_{\text{unsafe}}v=hˉsafe−hˉunsafe 로 계산
- 내부 상태 정합성 손실 설계
- Fine-tuning 시, 실제 CoT 수행 중의 hidden state hth_tht가 안전 벡터 방향으로 움직이도록 KL divergence 형태의 페널티를 추가
- 예)Ltotal=Ltask+λKL(ht∥ht+v)
Ltotal=Ltask+λ KL( ht ∥ ht+v ) \mathcal{L}_{\text{total}}
= \mathcal{L}_{\text{task}} + \lambda\,\mathrm{KL}\big(\,h_t \;\|\; h_t + v\,\big)
- 체인-오브-생각 전 단계 감시
- 단지 최종 답변이 아니라, 중간 단계마다 hidden state가 안전 궤적을 따르는지 모니터링
- 문제가 생기면 즉시 intervene(예: steering vector 강화, 사용자 경고 등)
- 효과 및 장점
- CoT 중간중간에 모델이 ‘무슨 생각’을 하는지(벡터 수준으로) 직접 제어 가능
- 단순 출력 평가보다 훨씬 미세하게 안전 보장
- 출력에선 멀쩡해 보여도, 뒤에서 위험 신호(undesired hidden dynamics)를 조기에 포착 가능
ChatGPT
A conversational AI system that listens, learns, and challenges
https://chatgpt.com/c/686565d9-6dc8-8007-9b07-a1667cc5c1b0

Seonglae Cho