Loading views...

RL Time series Transformer like
Decision Transformer

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2023 Sep 27 5:1
Editor
Edited
Edited
2026 Feb 23 16:0
Specific
Specific
Specific
Refs
Refs
Computable
Computable
Computable
아무리 생각해도 last state만 고려하는 MDP는 너무 큰 optimism이다 지나온 trajectory 를 기억해야하고 이전 망각은 성능 한계의 핵심
RL이 발전 오래 못하고 제대로 작동하지 않는 근본적인 이유는
Markov Decision Process
가정때문. history를 transformer처럼 전부 봐야함
같은 state라도 action history 에 따라 달라야 한다.
  • attention을 rl에 적용하면 state 마지막만이 아니라 모둔 state seq 받아서 다음 state예측으로
  • 다만 연속적은 state를 어케 embedding시킬지는 문제 혹은 state 그 자체로 하면 input output state 동일
  • state residual stream해서 head만 바꿔주면서 action하고 state하고 value예측해주면 될듯
 

Recommendations