Expected return of a policy is the expected return over all possible trajectories
Derivation이고, 의미는 쉽게말해 reward를 올리려면 학습데이터들 s일때 a가 나올 확률을 높이면 된다는 말 (당연한 것) 없는 항은 날려주고
학습의 안정성을 위해 variance 줄이는 방향으로 발전한다. (batch gradient, diagonal sum of reward)
sequence 평균해서 reward예상하기도 하고, sequence가 아니라 한 점에 대해서 예측하기도 한다. reward합을 줄이는 것도 있고 하나하나 줄이기도 한다
diagonal로 action 이후 reward만 더해주면 초반 action에만 coefficient 커져서 incentive해주는것 같다. b빼줘도 gradient는 같기 때문인데 normalization은 안함
Markov Property 로 세번째줄 넘어갈 때 적용댐
- Produce a high-variance (of reward in action) gradient
- Reward can drastically change with a minor change in actions
- Hard to find optimum, hard to optimize
- Require on-policy data
- The derivation of the policy gradients assume data come from policy rollouts
Online Learning
Baseline
Why variance matters
Policy Gradient Theorem Notion