NVLink

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2020 May 17 9:27
Editor
Edited
Edited
2025 Dec 12 16:58
Refs
Refs
Hopper H100 enables GPU Coherency by connecting 8 GPUs per node via optical cables. However, using optical fiber introduces latency due to the conversion between electrical and optical signals. This limits the theoretical maximum to 200,000 coherent GPUs, which is what xAI achieved with Grok 4.
NVLink Usages
 
 
 
 
 

CPUs, ASICs

AI 전쟁 Phase 2
힌튼, 알렉스, 일리야 3인의 2012년 알렉스넷 발표. 젠슨황은 그 가능성을 알아보고 힌튼 교수팀과 접촉 후 엔비디아에서 엄청난 투자를 해 3년 후 딥러닝용 슈퍼컴퓨터 DGX-1을 GTC 2016년 행사장에서 공개합니다. 청중은 조용-했습니다. 한 명도 그게 뭔지, 왜 필요한 지 이해하지 못했고 구매 요청은 아예 없었죠. 그 때 젠슨 황은 10년 전 쿠다 발표를 떠올렸을 거에요. 2006년, 야심차게 쿠다를 발표했지만 장은 전혀 그들을 이해하지 못하고 주가가 폭락했거든요. DGX-1에 대한 차가운 반응을 마주한 그 행사장에서, 한 사람이 다가옵니다. 일론머스크입니다. "나 그거 아주 잘 쓸 기업 하나 있는데", "비영리기업이야" 비영리기업이 이렇게 대당 12만 달러인 슈퍼컴퓨터를 산다고? 잠시나마 희망에 부풀었던 젠슨은 얼굴에 핏기가 싹 가셨습니다. 하지만, 그래, 조금이라도 팔아보자 싶어서 본사에서 하나를 상자에 담아 샌프란시스코로 달렸습니다. 피터 아빌, 다리오 아모데이, 일리야 수츠케버, 그야말로 세계 최고의 젊은 천재들이 좁은 2층 사무실에 모여있었고 젠슨은 그 상자를 열어 전달해줍니다. 이게 바로 모든 것의 시작이었죠. OpenAI에 GPU를 전달해준 그 사진. 팔짱끼고 웃으며 내려다보는 일론. 그 사진입니다.¹ 젠슨에게 일론이 얼마나 고마운 사람이었을진 누구나 짐작할 수 있을 겁니다. 2025년 10월, 젠슨은 DGX-1과 컴퓨트(compute, 컴퓨팅, 연산력)는 거의 비슷하지만 사이즈는 이제 책 한권 수준으로 작아진 최신 모델, DGX-Spark를 SpaceX에 전달해줍니다. 이 젠슨 황과 일론 사이의 특수성을 고려하고, 다음 세대의 치명적인 버그를 최대한 빨리 발견하기 위해, 누구보다 빨리 코히어런트하게 대규모 블랙웰 팜을 만들 수 있는 곳에 납품해야한다는 점, 마지막으로 프론티어 랩 4곳 중 하나여야 한다는 점. 이 세 가지를 모두 고려하면, 블랙웰 첫 모델의 포문을 열 진영은 xAI일 겁니다. 엔지니어링 능력에 있어서 가장 앞서있고 이미 호퍼세대에 이 점이 검증되기도 했죠. 2024년 10월, 호퍼로 콜로서스로 만든 일론은 한 인터뷰에서 "클러스터를 만드는 것은 고도의 엔지니어링 문제다. 수십만대를 코히어런트하게 만드는 것은 극한의 작업이다." 라고 한 바 있습니다. 이미 1년도 전에 핵심 문제가 뭔지, 그는 온 몸으로 느낀 것이죠. 현 인류가 AI를 대하는 모습은, Gavin이 한 말처럼, 고대인과 태양 사이의 관계와 매우 흡사합니다. 고대 이집트인, 고대 영국인들은 태양을 정밀하게 관측하고 기록하는데 도가 텄었죠. 하지만 실제 지구는 구 모양에 가깝고 우주라는 공간에서 태양을 공전한다는 실제 역학은 상상조차 못했습니다. AI도 마찬가지입니다. 왜 컴퓨트와 전력, 데이터, 칩을 넣으면 지능이 나올까요. 엔비디아 수장 젠슨황 조차 "앞으로 어떻게 될 지는 아무도 모른다"²고 했습니다. 일리야, 카파시는 이대로 AGI는 안될 것 같다고 말합니다. 아모데이는 누구보다도 스케일링 법칙을 확신하고 있고 딥마인드 진영은 10년 내 AGI 개발을 강하게 믿고 있습니다. 우주 데이터센터에 대해서도 아직 먼 이야기다는 말이 많습니다. ISS는 100kW, 많아봐야 200kW를 전력을 생산 및 소비하는데도 방열판이 그렇게 큰데 어떻게 기가와트급이 현실적으로 가능하냐는 비판이죠. 하지만 2026년 말 대량생산되어 발사될 스타링크 V3가 이미 20kW급일 예정입니다. LEO 인터넷 용으로 달아놓은, 크고 무거운 위상배열 안테나를 제거하면 어떨까요. GPU를 달고 더 가벼워진 만큼 더 넓게 태양광 패널을 펼치도록 하며 더 커다란 라디에이터, 방열판을 달 수 있습니다. 일론은 V3이 이미 그렇게 용도변경하면 100kW 급 이상이 될 수 있다고 설명하죠.³ ISS 하나가 100kW 입니다. GB200 NVL72 랙 하나가 132kW 를 쓰니, 스타링크 V3 위성하나가 블랙웰로 만들어진 랙 하나가 되는 셈입니다. 그 위성 하나 하나가 랙이 되면, 그 랙끼리의 연결은 본래 지상에서라면 광섬유 안의 레이저로 연결하겠지만 우주에서는 그보다도 더 빠른, '진공'에서의 레이저로 연결하게 됩니다. 일론은 이에 대해서도 스타링크에서 쓰고 있는 위성간 레이저 통신 시스템을 쓰면 된다고 말했죠. Gavin의 말처럼, 이미 판은 다 갖춰졌습니다. FSD가 세계로 뻗어가고, xAI는 블랙웰 모델의 포문을 열고, SpaceX와 스타링크는 '새로운 기업'처럼 보입니다. 샘 알트먼이 우주로 눈을 돌리는 것도 설명이 되죠. OpenAI는 토큰 생산 비용이 높다는 단점에도 불구하고 GPT-5.2pro로 ARC-AGI-1, 2에서 모두 SOTA를 달성했습니다.⁴ OpenAI 직원들의 "Taste"는 매번 놀라울 정도입니다. 이들도 xAI에 이어 블랙웰 모델을 내놓기 시작하면 어떻게 될까요. 우리 모두가 미지의 영역으로 프론티어 라인을 넓혀가는 이 시기에, 블랙웰이라는 Phase 2가 시작됩니다. 블랙웰이 희토류보다 레버리지가 높다고 판단하신다면, 시장을 두려워하지 않을 수 있습니다. 두려워하지마세요. 엔트로피가 본격적으로 더 높아지는 시대가 옵니다. 시청해주시는 한 분, 한 분께 진심으로 감사드립니다. ------------ [1] https://buly.kr/APwBpDz [2] https://buly.kr/GktT8bN [3] https://x.com/elonmusk/status/1998872465087541752?s=20 [4] https://arcprize.org/leaderboard ------------- https://www.youtube.com/watch?v=cmUo4841KQw&t=1272s
AI 전쟁 Phase 2
 
 

 

Recommendations