Alignment Problem, AI Control
A Maximally Curious AI Would Not Be Safe For Humanity
AI is aligned with an operator - AI is trying to do what operator wants to do
Aligned doesn’t mean perfect (Controllability, reliability)
가르친 행동과 다른 행동의 불일치 정렬
모델의 능력보다 정렬이 더 빠르게 발생해야 한다
신경망의 내부를 보고 해석하는 다른 신경망이 필요할 것
AI Alignment Notion
AI Alignment Externals