Loading views...

Continuous Thought Transformer

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2025 May 26 14:33
Editor
Edited
Edited
2026 May 28 13:49
Refs
Refs
Working
Working
Working
Done
Done
Done
Deprecated
Deprecated
Deprecated

CTT

Continuous Thought Machine
에서 token diemsnion 으로 늘이기
한번에 가지고 있는 정보양이 많아야해
결국 internally compute time considering design 인데 지금 장점은 겨우 interpretbailtiy 정도이고. 이게 주류가 되려면 지금 부족한 성능이나 parallel 하게 학습되거나 scalability 가 최우선이겠네
현재 내부 tick은 완전 순차적(“한 tick 끝나야 다음 tick”)이라 GPU/TPU 병렬화가 어렵습니다.
tick 간에 residual connection 은 충분히 좋을거같은데 지금 없다고?

innocuous GRPO

GRPO에서 Time-Discounted reward 는 위같은 side effect 는 가지지만 올바른 초반 단계에 더 큰 보상을 줌으로써 일관된 추론 경로를 유도하고, 전체 성능을 가장 잘 개선하므로 wrong answer 에만 time discounting 을 없에거나오히려 만대로 하면 성능 좋아질수도

SAE
Hebbian Meta-Learning

apply this to sae features or transformer itself for runtime weight changing

Ball attention to residual stream

residual stream 단에서 ball attention 만을;ㅗ 글로벌 linear 새로운 토큰의 근처 token 들 사이만 빠르게 계산하고 linear ocmputation model llm.
좋은 점이 뭐냐면 레이어별로 다양한 토큰 계산가능하다 topk 로 뽑아서 여러 레이어 fea ture 에서 각 feature 관련 token 만 sparse refer 하여 3d neuron 접근하는것처럼 적용가능

Reward streak

SNN Recurrent Model

인간의 뉴런 각각이 우리가 생각했던 것보다 더 많은 연산을 수행할 가능성도 있습니다. -
Ilya Sutskever

PAC Bayes theorem

The autoregressive structure itself is the key factor rather than model size or prompts. Relies on ad-hoc state updates without explicit weight updates.
There is minimal cross-task representation sharing (low cross-task transfer); in-context representations formed in one task do not transfer to other tasks. This is because ICL learns in "temporary runtime state space" rather than model parameter space. Consequently, this suggests that ICL is a non-reusable, task-specific temporary adaptation.
ICL operates based on statistical token alignment and contextual memory rather than semantic understanding or linguistic comprehension of prompts, and this is a temporary (local) and task-specific form of learning. In other words, the core mechanism is "instantaneous state compression" rather than "generalizable internal representation." It coexists within a broad representation space based on the
Superposition Hypothesis
, learning each task through massive data learning, which is why
MoE
improves performance
arxiv.org

그래서 결국 Task 간 representation 공유를 잘하는 모델 구조를 설계해야 한다.

이는
Simplex
로 이뤄낼 수 있지 않을까
인간 지능도 비슷한 것이 generalization 이 IQ 의 기준이고 비슷한 것을 보았을 때 analogy 를 잘 적용하고 analogy is all intelligence need 일수도 있다.
그래서 사람 대가리도 크기보다 구조가 중요하고 연결성이 중요한 것이다. 연결성보다 이제 더 중요하다고 깨달은 부분이 locality 인데 즉 비슷한 것이 비슷한 representation 으로 나타나도록 locality 된게 연결성 을 가능하게 하는 근본적 요인
이렇게 task 별로 interpretabilty 가 다르다는 건
CVR
연구에서도 동일하게 나타나는 것으로 보아 신뢰도가 높다.
혹은 crosscoder 나
ThoughtComm
같은 방식으로 representation sae 로 강제할수도 pretraining 때부터.
There should be a folded task manifold which is 초콜릿 말차 종이접기 처럽 latent 에 접혀 들어가있을 것이다. 공유한다는 건 이 task manifold 를 연결한다거나 geometry structure 를 구축한다는 거고 graph 형태나 topological approach 필요함. 그래서 내가 simplex 떠올린거고 다른 방향성 있을수도 현실은 그렇게 simple하지 않으니.
 
 

아래처럼 레이어가 필요하다 high level low level for or meta learning 키잡이나 road map 이라 하나 방향타 . 기준이 되는 지침 in different level for more bigger adaptation 인간은 적응의 동물이고 attention 이후 다음 컨셉은 adaptation 일수도. 새로운 env 에 그리고 hierarchy로 같은 개념의 번져가는 해석 혹은 diffusion 처럼 구체화되는 해석

 

Inner cortex outer cortex alignemnt

using , separate core dependency and consitution rule in the inner contex freezed. and let users to continual training in the safe zone.
 
 
ChatGPT
A conversational AI system that listens, learns, and challenges
ChatGPT
 
 

Recommendations