YSU SW2

Creator

Creator

Seonglae Cho

Created

Created

2023 Aug 15 10:8

Editor

Editor

Seonglae Cho

Edited

Edited

2023 Dec 14 6:41

Refs

Refs

Prompt Learning

YSU SW2 Notion

YSU SW2 스몰톡

YSU SW2 주제정하기

YSU SW2 준비

YSU SW2 연구제안서

YSU SW2 회의

YSU SW2 중간보고서

YSU SW2 Vector DB

YSU SW2 Summarizer

YSU SW2 Reader

[의역] 강화학습 Policy Gradient 직관적인 설명 (1 / 2 )

기존 설명의 문제점 최근에 꽤나 성공적인 강화학습 알고리즘은 Policy-Gradient이라는 알고지즘 패밀리에 속합니다. A3c, TRPO, PPO...등이 있겠네요. 정확히는 actor-critic 알고리즘 패밀리에 속합니다. 찐 강화학습 팬이라면 policy gr

https://velog.io/@hur-kyuh-leez/의역-Policy-Gradient-직관적인-설명-1-2

[의역] 강화학습 Policy Gradient 직관적인 설명 (1 / 2 )

[RL] Policy Gradient Algorithms

(해당 글은 OpenAI Engineer인 Lilian Weng의 포스트 내용을 원저자 동의하에 번역한 내용입니다.) Policy Gradient Algorithms Abstract: In this post, we are going to look deep into policy gradient, why it works, and many new policy gradient algorithms proposed in recent years: vanilla policy gradient, actor-critic, off-policy actor-critic, A3C, A2C, DPG, DDPG, D4PG, MADDPG, TRPO, lilianweng.github.io Policy Gradient 강화학습의 목적은 o..

https://talkingaboutme.tistory.com/entry/RL-Policy-Gradient-Algorithms

[RL] Policy Gradient Algorithms

Recommendations

/////