Reward to Go

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2024 Mar 20 1:49
Editor
Edited
Edited
2024 Apr 30 8:0
diagonal 하게 앞으로 받을 reward만 더해주는 것
즉 이전의 reward를 식에서 빼주는 건데 expectation 0 이라서 가능
하지만 variance는 0이 아니기 때문에 variance를 낮춰주는 효과가 있다.

Two notation

 

Reward to go

true expected reward to-go
estimated expected reward to-go
Better estimate of Q → better gradient → use true
 
 
 
 
 

Recommendations