특정 트리거가 발생할 때만 기만적인 행동을 보이는 LLMs를 훈련하는 방법 like Spy even after AI Alignment (safety learning) AI Sleeper AgentsMachine Alignment Monday 1/15/24https://www.astralcodexten.com/p/ai-sleeper-agentsarxiv.orghttps://arxiv.org/pdf/2401.05566.pdf