목표는 value func의 참 값을 찾는 것이 아닌 최대의 reward를 얻는 policy를 찾는 것으로 상태가 많아질수록 비효율적인 방법 Bellman UpdateQ(s,a)←Q(s,a)+α[r+γmaxa′Q(s′,a′)−Q(s,a)]Q(s,a)←Q(s,a)+α[r+γmax_{a′}Q(s',a')−Q(s,a)]Q(s,a)←Q(s,a)+α[r+γmaxa′Q(s′,a′)−Q(s,a)]