Policy Gradient Theorem

Editor
Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2023 Sep 10 8:8
Edited
Edited
2025 Mar 6 23:25
Expected return of a policy is the expected return over all possible trajectories
Derivation
이고, 의미는 쉽게말해 reward를 올리려면 학습데이터들 s일때 a가 나올 확률을 높이면 된다는 말 (당연한 것) 없는 항은 날려주고
학습의 안정성을 위해 variance 줄이는 방향으로 발전한다. (batch gradient, diagonal sum of reward)
sequence 평균해서 reward예상하기도 하고, sequence가 아니라 한 점에 대해서 예측하기도 한다. reward합을 줄이는 것도 있고 하나하나 줄이기도 한다
diagonal로 action 이후 reward만 더해주면 초반 action에만 coefficient 커져서 incentive해주는것 같다. b빼줘도 gradient는 같기 때문인데 normalization은 안함
Markov Property
로 세번째줄 넘어갈 때 적용댐
notion image
notion image
  • Produce a high-variance (of reward in action) gradient
    • Reward can drastically change with a minor change in actions
    • Hard to find optimum, hard to optimize
  • Require on-policy data
    • The derivation of the policy gradients assume data come from policy rollouts

Online Learning

notion image
notion image
notion image

Baseline

notion image

Why variance matters

notion image
 
 
 

Turing 2024 (
Richard Sutton
)

  • Andrew Barto
 
 

Recommendations