[HUFS RL] 강화학습 : Reinforcement Learning: Policy Gradient (REINFORCEMENT)
강화학습 정의 : 주어진 환경(environment)에서 에이전트(Agent)가 최대 보상(Reward)를 받을 수 있는 활동(Action)을 할 수 있도록 Policy를 학습하는 것! 환경(Environemt) : 에이전트가 액션을 취하는 환경을 말합니다. 슈퍼마리
https://velog.io/@uonmf97/Reinforcement-Learning-Policy-Gradient-REINFORCEMENT