V-functionExpected return starting from a particular state under a given policyState-value estimationsPolicy Gradient Baseline Value function is distributional expectation of State-value-action function (3) 가치함수와 벨만방정식앞 장에서 문제를 MDP로 정의하는 방식에 대해 살펴보았다. 이제 본격적으로 가치함수와 큐함수, 벨만 기대 방정식과 벨만 최적 방정식에 대해 톺아보자.https://jang-inspiration.com/bellman-equation