PPO

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2023 Jul 15 17:6
Editor
Edited
Edited
2024 May 3 5:6

Proximal Policy Optimization

Methods

  • Use advantage function to reduce the variance
  • Use importance sampling to take multiple gradient steps by utilizing semi-off-policy data
  • Constrain the optimization objective in the policy space by clipping

Property

  • It scales very well as perspective of parallel training and it is rare property in RL
  • It supports discrete and continuous
  • balance between ease of implementation, sample complexity, and tuning unlike TRPO
  • importance sampling 으로 다른 policy를 사용할 수 있게되고(semi off policy), 그래서 하나의 trajectory에서 여러 번 policy update를 할 수 있게 되는 것

Background

  • 2017년 OpenAI에서 개발된 모델 없는 강화 학습 알고리즘
  • However, PPO is still considered on-policy RL because the new policy should be sufficiently close to roll-out policy due to the constraint. Also, PPO cannot handle data from multiple different polices.
notion image
notion image

Importance sampling

Clipping

TRPO
에 기반하고 clipping으로 적응적인 목적 함수를 사용하여 정책 업데이트의 크기를 조절
notion image
PPO의 목표 함수에서 클리핑은 양쪽 방향으로 적용되지만, 실제 최소값 연산의 효과는 ratio 값과 A의 부호에 따라 한쪽만 적용
즉 아래 수식은 일종의 표현이지 동시에 적용되는 부등호가 아니라 하나씩 적용되는 부등호다
6가지 경우의 수에서 하지만 2가지 경우의 수는 해보면 안나온다
ratio 가 에 independent하지 않기 때문에 미분과정이 복잡하지만 chain rule 해보면 log probability 없어짐. 이전 과정에서 time step 별로 하는걸 trajectory 로 퉁치는 approximation은 있다. 이 approximation에서 clipped area 근처여야 작동한다.
 
 
 

Additional implementation options

notion image
 
 
 
 
 
 
 

Recommendations