RL Time series Transformer like
Decision Transformer

Creator

Creator

Seonglae Cho

Created

Created

2023 Sep 27 5:1

Editor

Editor

Seonglae Cho

Edited

Edited

2026 Feb 23 16:0

Specific

Specific

Specific

Refs

Refs

Computable

Computable

Computable

아무리 생각해도 last state만 고려하는 MDP는 너무 큰 optimism이다 지나온 trajectory 를 기억해야하고 이전 망각은 성능 한계의 핵심

RL이 발전 오래 못하고 제대로 작동하지 않는 근본적인 이유는

Markov Decision Process 가정때문. history를 transformer처럼 전부 봐야함

같은 state라도 action history 에 따라 달라야 한다.

attention을 rl에 적용하면 state 마지막만이 아니라 모둔 state seq 받아서 다음 state예측으로

다만 연속적은 state를 어케 embedding시킬지는 문제 혹은 state 그 자체로 하면 input output state 동일

state residual stream해서 head만 바꿔주면서 action하고 state하고 value예측해주면 될듯

Recommendations

////