diagonal 하게 앞으로 받을 reward만 더해주는 것
즉 이전의 reward를 식에서 빼주는 건데 expectation 0 이라서 가능
하지만 variance는 0이 아니기 때문에 variance를 낮춰주는 효과가 있다.
Two notation
Reward to go
true expected reward to-go
estimated expected reward to-go
Better estimate of Q → better gradient → use true