SARSA

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2023 Jul 18 8:57
Editor
Edited
Edited
2024 May 1 2:3
Refs
Refs

state-action-reward-state-action ()

SARSA-style objective can learn Q-values without estimating OOD actions
notion image
Almost start of Reinforcement learning after
Generalized Policy Iteration
GPI에서는 벨만 방정식에 따라 정책을 평가
Temporal-Difference 방법에서는 가치 이터레이션의 방법을 도입
현재 상태의 큐함수를 보고 판단한다면 환경의 모델을 몰라도 된다
시간차 제어에서는 큐함수를 사용한 탐욕 정책 을 통해 행동을 선택
초기의 에이전트에게 탐욕정책은 잘못된 학습으로 가게할 가능성이 크기 때문에 epsilon-탐욕 정책 을 사용
 

Limitation

특정 state에 갇혀버리는 현상
자신이 행동한 대로 학습하는 것을 On-Policy 시간차 제어
 
 
 
 
 
 

Recommendations