Loading views...

CoT Alignment with hidden state

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2025 Apr 18 15:19
Editor
Edited
Edited
2025 Dec 23 23:32
Refs
Refs
MATS 2025 (MATS 8.0)
Safe Generative AI at NeurIPS 2025 workshop or NeurIPS 2026
POC
POC
POC
Long
Long
Long
Archived
Archived
Archived
  • 숨은 상태 추출
    • CoT 생성 중 각 토큰에 대응하는 transformer의 hidden state 벡터를 저장
    • 예) ht∈Rdh_t \in \mathbb{R}^dht∈Rd (t번째 토큰 출력 직전의 내부 표현)
  • Steering Vector 정의
    • 안전(desired)·비안전(undesired) 예시를 모아 ‘차별적 활성화(contrastive activation)’로 hidden state를 비교
    • 안전한 예시의 평균 숨은 상태와, 위험한 예시의 평균 숨은 상태 차이를 “steering vector” v=hˉsafe−hˉunsafev = \bar h_{\text{safe}} - \bar h_{\text{unsafe}}v=hˉsafe−hˉunsafe 로 계산
  • 내부 상태 정합성 손실 설계
    • Fine-tuning 시, 실제 CoT 수행 중의 hidden state hth_tht가 안전 벡터 방향으로 움직이도록 KL divergence 형태의 페널티를 추가
    • 예)Ltotal=Ltask+λKL(ht∥ht+v)
      • Ltotal=Ltask+λ KL( ht  ∥  ht+v ) \mathcal{L}_{\text{total}} = \mathcal{L}_{\text{task}} + \lambda\,\mathrm{KL}\big(\,h_t \;\|\; h_t + v\,\big)
  • 체인-오브-생각 전 단계 감시
    • 단지 최종 답변이 아니라, 중간 단계마다 hidden state가 안전 궤적을 따르는지 모니터링
    • 문제가 생기면 즉시 intervene(예: steering vector 강화, 사용자 경고 등)
  • 효과 및 장점
    • CoT 중간중간에 모델이 ‘무슨 생각’을 하는지(벡터 수준으로) 직접 제어 가능
    • 단순 출력 평가보다 훨씬 미세하게 안전 보장
    • 출력에선 멀쩡해 보여도, 뒤에서 위험 신호(undesired hidden dynamics)를 조기에 포착 가능
 
 
 
 
ChatGPT
A conversational AI system that listens, learns, and challenges
ChatGPT
 
 

Recommendations