Reward to Go

Created
Created
2024 Mar 20 1:49
Editor
Creator
Creator
Seonglae ChoSeonglae Cho
Edited
Edited
2024 Nov 21 11:32
Reward Maximization
에서 diagonal 하게 앞으로 받을 reward만 더해주는 것
즉 이전의 reward를 식에서 빼주는 건데 expectation 0 이라서 가능
하지만 variance는 0이 아니기 때문에 variance를 낮춰주는 효과가 있다.

Two notation

 

Reward to go

true expected reward to-go
estimated expected reward to-go
Better estimate of Q → better gradient → use true
 
 
 
 
 

Recommendations