Policy Gradient Theorem

Editor
Editor
Alan JoAlan Jo
Creator
Creator
Alan JoAlan Jo
Created
Created
2023 Sep 10 8:8
Edited
Edited
2024 May 2 16:23
Derivation
이고, 의미는 쉽게말해 reward를 올리려면 학습데이터들 s일때 a가 나올 확률을 높이면 된다는 말 (당연한 것) 없는 항은 날려주고
학습의 안정성을 위해 variance 줄이는 방향으로 발전한다. (batch gradient, diagonal sum of reward)
sequence 평균해서 reward예상하기도 하고, sequence가 아니라 한 점에 대해서 예측하기도 한다. reward합을 줄이는 것도 있고 하나하나 줄이기도 한다
diagonal로 action 이후 reward만 더해주면 초반 action에만 coefficient 커져서 incentive해주는것 같다. b빼줘도 gradient는 같기 때문인데 normalization은 안함
Markov Property 로 세번째줄 넘어갈 때 적용댐
notion image
notion image
  • Produce a high-variance (of reward in action) gradient
    • Reward can drastically change with a minor change in actions
    • Hard to find optimum, hard to optimize
  • Require on-policy data
    • The derivation of the policy gradients assume data come from policy rollouts

Online RL

notion image
notion image
notion image

Baseline

notion image

Why variance matters

notion image
Policy Gradient Theorem Notion
 
 
 
 
 
 
 

Recommendations