Generalized Policy Iteration (GPI)
1. Policy Evaluation
2. Policy Improvement
Limitation
- Computation Complexity
- Can’t get perfect information about the environment
(5) 정책 이터레이션, 가치 이터레이션
정책 이터레이션(Policy Itertaion)과 가치 이터레이션(Value Iteration)에 대해 살펴보자. 또한 다이나믹 프로그래밍의 한계와 모델없이 학습하는 강화학습 등에 대해 톺아보자.
https://jang-inspiration.com/policy-value-iteration

Seonglae Cho