Proximal Policy Optimization
Methods
- Use advantage function to reduce the variance
- Use GAE for better bias/variance trade-off (Advantage function)
- Use importance sampling to take multiple gradient steps by utilizing semi-off-policy data
- Constrain the optimization objective in the policy space by clipping
Property
- It scales very well as perspective of parallel training and it is rare property in RL
- It supports discrete and continuous
- balance between ease of implementation, sample complexity, and tuning unlike TRPO
- importance sampling 으로 다른 policy를 사용할 수 있게되고(semi off policy), 그래서 하나의 trajectory에서 여러 번 policy update를 할 수 있게 되는 것
Background
- 2017년 OpenAI에서 개발된 모델 없는 강화 학습 알고리즘
- However, PPO is still considered on-policy RL because the new policy should be sufficiently close to roll-out policy due to the constraint. Also, PPO cannot handle data from multiple different polices.
Importance sampling
Clipping
TRPO에 기반하고 clipping으로 적응적인 목적 함수를 사용하여 정책 업데이트의 크기를 조절
PPO의 목표 함수에서 클리핑은 양쪽 방향으로 적용되지만, 실제 최소값 연산의 효과는 ratio 값과 A의 부호에 따라 한쪽만 적용
즉 아래 수식은 일종의 표현이지 동시에 적용되는 부등호가 아니라 하나씩 적용되는 부등호다
6가지 경우의 수에서 하지만 2가지 경우의 수는 해보면 안나온다
ratio 가 에 independent하지 않기 때문에 미분과정이 복잡하지만 chain rule 해보면 log probability 없어짐. 이전 과정에서 time step 별로 하는걸 trajectory 로 퉁치는 approximation은 있다. 이 approximation에서 clipped area 근처여야 작동한다.