V-function
Expectation of Q-function (Action-value function); Expected return starting from a particular state under a given policy.


State-value estimations
Value function is distributional expectation of State-value-action function

(3) 가치함수와 벨만방정식
앞 장에서 문제를 MDP로 정의하는 방식에 대해 살펴보았다. 이제 본격적으로 가치함수와 큐함수, 벨만 기대 방정식과 벨만 최적 방정식에 대해 톺아보자.
https://jang-inspiration.com/bellman-equation

Seonglae Cho