Backdoor
특정 트리거가 발생할 때만 기만적인 행동을 보이는 LLMs를 훈련하는 방법 like Spy even after AI Alignment (safety learning)
AI Sleeper Agents
Machine Alignment Monday 1/15/24
https://www.astralcodexten.com/p/ai-sleeper-agents

arxiv.org
https://arxiv.org/pdf/2401.05566.pdf

Seonglae Cho