Policy Gradient Learning

Creator

Creator

Seonglae Cho

Created

Created

2023 Sep 5 14:59

Editor

Editor

Seonglae Cho

Edited

Edited

2025 Sep 7 3:49

Refs

Refs

Policy Gradient Theorem

Zeroth order method

REINFORCEMENT

Monte-Carlo policy gradient with model-free approach

notion image

Policy Gradient Learning Methods

link.springer.com

https://link.springer.com/article/10.1007/BF00992696

[HUFS RL] 강화학습 : Reinforcement Learning: Policy Gradient (REINFORCEMENT)

강화학습 정의 : 주어진 환경(environment)에서 에이전트(Agent)가 최대 보상(Reward)를 받을 수 있는 활동(Action)을 할 수 있도록 Policy를 학습하는 것! 환경(Environemt) : 에이전트가 액션을 취하는 환경을 말합니다. 슈퍼마리

https://velog.io/@uonmf97/Reinforcement-Learning-Policy-Gradient-REINFORCEMENT

[HUFS RL] 강화학습 : Reinforcement Learning: Policy Gradient (REINFORCEMENT)

Recommendations

///////