transformer 가 text에서 먼저 성공한 건 단순히 텍스트 데이터 stream이 많기 때문이다.
transformer 로 input frame stream or sensor stream에다가 output action stream 하면 당연히 인간만큼 작동 scaling 잘할것은 사실상 확실함
다만 문제는 그런 데이터가 없다는 것임. 실제 사용될 robot를 위해서는 이런 데이터가 필요하고, 아마 이전에 이런 데이터 수집을 위한 장치들이 아이폰처럼 상용화될것. 지금 테슬라가 하고 있는 것처럼.
가장 좋은 건 residual steram 이 잘 작동하기 위해 input domain과 output domain이 자연어 llm처럼 일치시키는 것이지만, 어떻게 해결할지는 미지수.
Seonglae Cho