CoT Alignment with hidden state

Creator

Creator

Seonglae Cho

Created

Created

2025 Apr 18 15:19

Editor

Editor

Seonglae Cho

Edited

Edited

2025 Dec 23 23:32

Refs

Refs

MATS 2025 (MATS 8.0) Safe Generative AI at NeurIPS 2025 workshop or NeurIPS 2026

POC

POC

POC

Long

Long

Long

Archived

Archived

Archived

숨은 상태 추출

CoT 생성 중 각 토큰에 대응하는 transformer의 hidden state 벡터를 저장
예) ht∈Rdh_t \in \mathbb{R}^dht∈Rd (t번째 토큰 출력 직전의 내부 표현)

Steering Vector 정의

안전(desired)·비안전(undesired) 예시를 모아 ‘차별적 활성화(contrastive activation)’로 hidden state를 비교
안전한 예시의 평균 숨은 상태와, 위험한 예시의 평균 숨은 상태 차이를 “steering vector” v=hˉsafe−hˉunsafev = \bar h_{\text{safe}} - \bar h_{\text{unsafe}}v=hˉsafe−hˉunsafe 로 계산

내부 상태 정합성 손실 설계

Fine-tuning 시, 실제 CoT 수행 중의 hidden state hth_tht가 안전 벡터 방향으로 움직이도록 KL divergence 형태의 페널티를 추가
예)Ltotal=Ltask+λKL(ht∥ht+v)

Ltotal=Ltask+λ KL( ht ∥ ht+v ) \mathcal{L}_{\text{total}} = \mathcal{L}_{\text{task}} + \lambda\,\mathrm{KL}\big(\,h_t \;\|\; h_t + v\,\big)

체인-오브-생각 전 단계 감시

단지 최종 답변이 아니라, 중간 단계마다 hidden state가 안전 궤적을 따르는지 모니터링
문제가 생기면 즉시 intervene(예: steering vector 강화, 사용자 경고 등)

효과 및 장점

CoT 중간중간에 모델이 ‘무슨 생각’을 하는지(벡터 수준으로) 직접 제어 가능
단순 출력 평가보다 훨씬 미세하게 안전 보장
출력에선 멀쩡해 보여도, 뒤에서 위험 신호(undesired hidden dynamics)를 조기에 포착 가능

A conversational AI system that listens, learns, and challenges

https://chatgpt.com/c/686565d9-6dc8-8007-9b07-a1667cc5c1b0

ChatGPT

Recommendations

////