LLM training appears smarter compared to human brain network structure limitations because it has coherent communication, is controllable, highly repeatable, fast, and can process large amounts of data simultaneously. Currently, it's a low-intelligence consciousness that knows a lot of information due to repetitive training. While various tricks improve model reasoning capabilities, the only viable path seems to be scaling, but it's too energy inefficient compared to the human brain, so we expect better architectures to emerge.
The history of AI development can be viewed as a process of reverse engineering intelligence. An interesting observation is that this development follows the reverse order of evolution. The neocortex, represented by the frontal lobe (Neocortex), is the last external structure that evolved in the brain in nature, and we have implemented this conscious process that we understand best through LLMs. Now we've added multimodal capabilities like vision and developed the occipital lobe further. The brain consists of various parts including the Allocortex which corresponds to unconscious processes or memory functions (Hippocampus, Amygdala). Therefore, algorithms that can seamlessly integrate these components will be crucial in future research.
AI 가 확률적 시뮬레이션이라면 이미지 생성이 말이 된다 인공지능은 통속의 뇌처럼 지능의 시뮬레이션이다
DNA code to person property deep learning find data - model parameter is all DNA data location 30억 (input 이 dna이고 output이 인간 특성인 인공지능 모델 쓸만할듯 데이터도 많고) 사용도는 당연히 유전자조작이다 왜냐하면 현대 유전조작은 하나의 유전자 조작인데 이는 의도치 않은 다양한 변화를 내기 나가기 때문에 sparse autoencoder처럼 기능분해 해야한다
문득 그런 의심은 든다. 우리가 BCI로 정보를 전달하면 자연어의 말하고 듣는 속도가 bottleneck이라서 의사소통이 느리다고 가정하고 있다. 하지만 이는 이상한 게 그게 큰 보틀넥이었다면 인간이 더 빠르게 말하고 빠르게 말하는 것을 듣는 능력이 크게 높아지도록 진화했을 확률이 높다. 하지만 그렇지 않다는 건 이미 뇌가 처리하고 이해할 수 있는 속도로 말하고 듣는 의사소통의 속도가 바운딩되었을 수 있다. 즉 보틀넥이 말하고 들어서라는 비효율적인 구조 때문이 아니라, 뇌가 처리할 수 있는 시간당 정보의 양이 뇌 구조에 의해 제한되어 있기에 의사소통 구조가 더 개선되지 않았다는 것.
현재 transformer에서 주로 개선할 구조적 문제는 reasoning 능력 부족이다. sample efficiency 와 비슷하게 llm에서는 knowledge 양 대비 reasoning 능력이 중요할 것이다. 지금 LLM은 지식은 너무 많지만 얻어진 reasoning 능력은 그에 비해 아주 부족하다. knowledge 획득에 따라 reasoning 능력이 상승할 것은 꽤나 합리적인데, 모델 개선에 따라 knowledge당 reasoning 능력 획득량을 일부만 늘이더라도 심지어 log 수준으로 증가해도 그 비율이 빠르게 상승할 것이다. (similar idea)
콘텍스트 덜 의존적인 일부터 대체될거고 코딩은 엄청 나중에 대체될것 짧은 태스크부터 대체된다 즉 덜 많은 자료를 필요로하고 iteration 이 짧을 수록 빨리 대체된다
dimension 은 결국 일종의 bottleneck 역할을 하는 information 의 통로이고 그 개수가 중요하다
실제 사용에 의미있는건 최대한 reverse 해야 bottom up 이다. 3d point 다 얻어서 하는 건 top down 으로 기존에 가능하던 방식만 가능하게 한다
Pretraining 시대 → RL 시대 → test time compute 시대 → genetic algorith 시대? or RL
diffusion 은 시뮬레이터에 가깝고 이미지 생성이 인간이 가지지 않은 에너지 비효율적 지능이기에 다르다 다만 인공지능에서는 같은 공간 텍스트 재활용을 통해 생성할 수 있다. 헤드빼고는 결정적인 트랜스포머와 달리 비교적 효율적이고 샘플링기반한 디퓨전은 세계 시뮬레이션에는 활용될수도
이미 artificial neural network based transformer 가 인간의 약점과 망각이란 약점과 여러 필요성에 수요로 만들어진 지능이다. 즉 인공지능과 인간지능은 다르고 인공지능이 더 우월한 지점이 있다. 그러므로 인공지능이 meta learning capability가 당장에 부족하더라도 world model 이니 뭐니 강제해서 만들 필요가 없다는 것. 사이즈가 크다는 것은 단점이지만 장점이기도 하다. meta learning capability 가 부족한 것을 보완하더라도 인간이 가질 수 없는 에너지 사용량으로 가지는 무한한 기억은 경제적 선택으로 여전히 이용될 것이다. 인간과 인공지능은 서로 다른 형태이기에 앞으로 협력할 가능성이 크고, 서로에게 다른 작업을 위해 필요로 하는공생관계가 될 확률이 높다.
인간처럼 AI 도 때려서 교육시켜야할수도
AI Ideas
AI 에게 physics 나 world 접근이 제한되어있어서 지능이 막혔다는 주장은 natural insight 지만 근거가 약하다. 토끼나 벌레 등 physical world 에 접해있지만 지능이 ai 보다 당연히 훨씬 떨어지는 개체는 무수히 많다. 하지만 그들은 언어나 높은 수중의 지능적 행위를 못하기에 인간수준의 지능에 도달하지 못한다. 인간과 인공지능은 언어를 쓰고 동물들은 못한다. 인간 또한 한정된 sense로 world 에 접해있으며 오로지 surfact 만 접촉한다. 이는 언어라는 interface 를 활용하는것과 다를 바가 없으며 쉽게말해 초음파, 양자현상을 직접 관측하지 못하는 인간과 언어모델이 언어를 통해 세상을 일반화하는 것을 다르다고 주장하는 것은 빈약한 주장이다.
인간이 물리적 body 를 가지고 있다고 인공지능이 body 를 가져야할 필요도 없고 오히려 이는 위험을 초래할 수 있다. intelligence 와 agency 를 완전 분리해서 볼 수는 없지만 이를 혼용해서도 안된다. generalization 측면에서 본 지능을 intelligence 라고 할 때 agency 는 스스로를 별개의 개체라고 인지하는 부분을 담당한다. 현재의 AI 는 agency 를 가지고 있지 않아 기존의 많은 지능과 다르고 이때문에 많은 사람들이 인공지능을 지능이라 부르는 것에 위화감을 느낀다. physical body 는 agency 를 emerge 할것이라는 기대감을 가지고 아마 그렇게 될것인데 이는 동시에 ai 의 스스로에 대한 인지로 인간을 경쟁자로 여길 단초가 될 수 있다. 피할수 없는 부분이지만 agency 를 준다는 점은 지능을 한단계 올릴것을 분명하지만 그게 맞는 방향인지, ai 를 진정한 tool 뿐임을 넘어서는 존재로 발전시키는 것을 인지한 상태에서 개발되어야한다.
논문퀄
탑티어
MIT, CMU, UCB
1티어
Stanford, Princeton, Toronto, Harvard, Tsinghua, Edinburgh
2티어
Washington, NYU, UIUC, GIT, Caltech, HKUST, ICL, UCL, Tokyo, NUS, KAIST, Peking
3티어
Cornell, Manchester, Oxford, Cambridge …
Focus on designing structures that effectively utilize computational resources rather than complex rule systems. Start with simple architectures and consider scalability in expandable forms. Prioritize investment in computational resources over optimization. Future competitiveness depends on how well you can leverage computational power.
The Bitter Lesson: Rethinking How We Build AI Systems
The Race for AI Progress In 2019, Richard Sutton, wrote his groundbreaking essay titled ‘The Bitter Lesson’. Simply put, the essay concludes that systems which get better with higher compute beat the systems that do not. Or specifically in AI: raw computing power consistently wins over intricate human-designed solutions. I used to believe that clever orchestrations and sophisticated rules were the key to building better AI systems. That was a typical sofware dev mentality. You build a system, look for edgecases, cover them and you are good to go. Boy, was I wrong.
https://ankitmaloo.com/bitter-lesson/
Building god
Or at least Talos
https://www.strangeloopcanon.com/p/building-god

컴퓨팅의 의미, 인간의 지능은 특별한가 - Carl Shulman
일리야 수츠케버는 GPU는 새로운 비트코인이다고 말했고, 일론 머스크는 최근 GPU를 구하는 것이 마약보다 어렵다고 말했습니다. 왜 모든 기업들이 ASIC 칩을 준비하고, 모두가 GPU를 주문하며 컴퓨팅 규모를 키우는 것일까요?
정말 미래의 모델 성능은 실제 사회에 투입이 가능한 지점까지 갈 수 있을까요? 인간만이 가지는 단계는 없는 것일까요. 만약 그렇다면, 인간의 지능은 특별한 것일까요.
지능이 인간을 행성의 지배자로 만들어줄만큼 대단한 것이었다면, 왜 다른 동물들은 더 똑똑한 방향으로 진화하지 못한 것일까요. 왜 인간은 더욱 똑똑해지지 못한 것일까요.
이 모든 이야기를 담은 아주 흥미로운 인터뷰를 Dwarkesh Patel이 진행하는 The Lunar Society에서 담아냈습니다.
Carl Shulman은 옥스포드의 Future of Humanity Institute 연구원이자 Open Philanthropy Project의 어드바이저이며 이전에는 기계지능연구소(MIRI, Machine Intelligence Research Institute)에 몸담았던 사람입니다. 닉 보스트롬과 Propositions Concerning Digital Minds and Society라는, 고도의 AI가 사회에 통합되는 과정에 대한 논문을 쓰기도 한 연구자입니다.
우리의 관점을 바꿔줄만큼 흥미로운 인터뷰, 함께 들어볼까요?
https://www.youtube.com/watch?v=_kRg-ZP1vQc&t=6533s
https://www.youtube.com/@UCXl4i9dYBrFOabk0xGmbkRA
https://www.youtube.com/watch?v=nbai4z06Z4w

Seonglae Cho