아무리 생각해도 last state만 고려하는 MDP는 너무 큰 optimism이다 지나온 trajectory 를 기억해야하고 이전 망각은 성능 한계의 핵심
RL이 발전 오래 못하고 제대로 작동하지 않는 근본적인 이유는 Markov Decision Process 가정때문. history를 transformer처럼 전부 봐야함
같은 state라도 action history 에 따라 달라야 한다.
- attention을 rl에 적용하면 state 마지막만이 아니라 모둔 state seq 받아서 다음 state예측으로
- 다만 연속적은 state를 어케 embedding시킬지는 문제 혹은 state 그 자체로 하면 input output state 동일
- state residual stream해서 head만 바꿔주면서 action하고 state하고 value예측해주면 될듯
Seonglae Cho