Policy Gradient Theorem

Expected return of a policy is the expected return over all possible trajectories

Derivation이고, 의미는 쉽게말해 reward를 올리려면 학습데이터들 s일때 a가 나올 확률을 높이면 된다는 말 (당연한 것)

\theta

없는 항은 날려주고

학습의 안정성을 위해 variance 줄이는 방향으로 발전한다. (batch gradient, diagonal sum of reward)

sequence 평균해서 reward예상하기도 하고, sequence가 아니라 한 점에 대해서 예측하기도 한다. reward합을 줄이는 것도 있고 하나하나 줄이기도 한다

diagonal로 action 이후 reward만 더해주면 초반 action에만 coefficient 커져서 incentive해주는것 같다. b빼줘도 gradient는 같기 때문인데 normalization은 안함

\pi_\theta(\tau) = p(\tau | \pi_\theta)

p(\tau) = \pi_\theta(\tau) =\pi_\theta(s_1, a_1, \dots, s_T, a_T, s_{T+1}) \newline = \pi_\theta(s_{T+1} | s_1, a_1, \dots, s_T, a_T) \cdot \pi_\theta(s_1, a_1, \dots, s_T, a_T) \newline = \pi_\theta(s_{T+1} | s_T, a_T) \cdot \pi_\theta(s_1, a_1, \dots, s_T, a_T) \newline \dots \newline = p(s_1) \Pi_{t=1}^{T} \pi_\theta(a_t|s_t)p(s_{t+1}|a_t)

Markov Property 로 세번째줄 넘어갈 때 적용댐

\theta^* = \argmax_\theta E_{\tau \sim \pi_\theta(\tau)}\sum_t r(s_t, a_t) = \argmax_\theta J(\theta)

J(\theta) = E_{\tau \sim \pi_\theta(\tau)} \sum_t r(s_t,a_t) = E_{\tau \sim \pi_\theta(\tau)}r(\tau) = \int\pi_\theta(\tau)r(\tau)d\tau

Policy Gradient Theorem Notion