Loading views...

Continuous Thought Transformer

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2025 May 26 14:33
Editor
Edited
Edited
2025 Dec 23 23:35
Done
Done
Done
Refs
Refs
Working
Working
Working

CTT

Continuous Thought Machine
에서 token diemsnion 으로 늘이기
한번에 가지고 있는 정보양이 많아야해
결국 internally compute time considering design 인데 지금 장점은 겨우 interpretbailtiy 정도이고. 이게 주류가 되려면 지금 부족한 성능이나 parallel 하게 학습되거나 scalability 가 최우선이겠네
현재 내부 tick은 완전 순차적(“한 tick 끝나야 다음 tick”)이라 GPU/TPU 병렬화가 어렵습니다.
tick 간에 residual connection 은 충분히 좋을거같은데 지금 없다고?

innocuous GRPO

GRPO에서 Time-Discounted reward 는 위같은 side effect 는 가지지만 올바른 초반 단계에 더 큰 보상을 줌으로써 일관된 추론 경로를 유도하고, 전체 성능을 가장 잘 개선하므로 wrong answer 에만 time discounting 을 없에거나오히려 만대로 하면 성능 좋아질수도

SAE
Hebbian Meta-Learning

apply this to sae features or transformer itself for runtime weight changing

Ball attention to residual stream

residual stream 단에서 ball attention 만을;ㅗ 글로벌 linear 새로운 토큰의 근처 token 들 사이만 빠르게 계산하고 linear ocmputation model llm.
좋은 점이 뭐냐면 레이어별로 다양한 토큰 계산가능하다 topk 로 뽑아서 여러 레이어 fea ture 에서 각 feature 관련 token 만 sparse refer 하여 3d neuron 접근하는것처럼 적용가능

Reward streak

 
 
 
 
ChatGPT
A conversational AI system that listens, learns, and challenges
ChatGPT
 
 

Recommendations