YSU SW2 Notion
[의역] 강화학습 Policy Gradient 직관적인 설명 (1 / 2 )
기존 설명의 문제점 최근에 꽤나 성공적인 강화학습 알고리즘은 Policy-Gradient이라는 알고지즘 패밀리에 속합니다. A3c, TRPO, PPO...등이 있겠네요. 정확히는 actor-critic 알고리즘 패밀리에 속합니다. 찐 강화학습 팬이라면 policy gr
https://velog.io/@hur-kyuh-leez/의역-Policy-Gradient-직관적인-설명-1-2
![[의역] 강화학습 Policy Gradient 직관적인 설명 (1 / 2 )](https://velog.velcdn.com/images/hur-kyuh-leez/post/058da280-7649-48ba-bb7a-1ca74860caa8/1_VzG-HaxFNYd3nbtT-1DGRg.jpeg)
[RL] Policy Gradient Algorithms
(해당 글은 OpenAI Engineer인 Lilian Weng의 포스트 내용을 원저자 동의하에 번역한 내용입니다.) Policy Gradient Algorithms Abstract: In this post, we are going to look deep into policy gradient, why it works, and many new policy gradient algorithms proposed in recent years: vanilla policy gradient, actor-critic, off-policy actor-critic, A3C, A2C, DPG, DDPG, D4PG, MADDPG, TRPO, lilianweng.github.io Policy Gradient 강화학습의 목적은 o..
https://talkingaboutme.tistory.com/entry/RL-Policy-Gradient-Algorithms
Seonglae Cho