feature direction 더해주는 것이 성능 제일 좋았다 bias 누적되서layer 별로 residual space 달라서 개별 policy 와 critic 만들어주기도 했지만 그게 더 안좋았다