10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
看懂 Cerebras:算力催生AI思考 記憶賦能Agent做事
作者:Ben Thompson
算力讓AI學會思考,記憶讓Agent學會幹活。
Cerebras上市這周,Ben Thompson最新文章講透了:AI從"聊天"進化到"自主執行任務",整個芯片架構的瓶頸變了。
你跟豆包聊天等的是速度;當Kimi Claw替你跑5小時的任務,它不在乎快3秒還是慢30秒——它在乎的是能不能記住上下文、能不能持續工作。每執行一步,工作記憶(KV Cache)就膨脹一層。GPU是為"人在螢幕前等"設計的:prefill時顯存空轉、decode時算力空轉——一半時間在干等。
真正卡脖子的不是算得多快, 是存得住多少、讀得出多快。 更本質的是, long-running agent讓KV Cache從臨時快取變成了持久化工作記憶。誰能讓這份記憶存得更久、復用率更高、成本更低,誰就握住了Agent經濟的命門。
這比跑分重要得多。
若論上市時機,在2026 年 5 月做一家芯片公司,幾乎再理想不過。路透社(Reuters)周末報導:
半導體股的這輪持續走高,根本驅動當然是 AI——尤其是市場逐漸意識到:智能體(Agents)將吞下海量算力(Compute)。但 Cerebras 所指向的命題更為寬闊:迄今為止,AI 的算力敘事幾乎只關於 GPU、只關於英偉達(Nvidia);而未來的圖景,將日益異構化(Heterogeneous)。
GPU時代
GPU如何成為AI中心的故事已是老生常談,簡而言之:
正如螢幕上繪製像素是一個並行過程(Parallel process)——處理單元越多,圖形渲染就越快——AI 計算同樣如此:處理單元數量直接決定計算速度。
英偉達正是順勢握住了這種"雙重用途":它讓圖形處理器變得可編程(Programmable),又以 CUDA 這套完整軟體生態,把這種編程能力推向所有開發者。
圖形與 AI 的根本差別,在於問題規模——模型遠比影片遊戲的textures龐大。由此帶來兩條連鎖演進:單顆 GPU 上的高帶寬內存(HBM, High-bandwidth memory)容量急劇擴張;晶片間互聯(Chip-to-chip networking)也出現重大突破,使多顆晶片得以作為一個可尋址系統(Addressable system)協同工作。這兩條線上,英偉達都處於領先。
GPU 的頭號用例始終是訓練,而訓練對上面第三點尤為苛刻。每一個訓練步驟內部是高度並行的,但步驟之間是串行的:進入下一步之前,每顆 GPU 都必須把自己的結果同步給所有其他 GPU。這就是為什麼一個萬億參數(Trillion-parameter)的模型,必須裝進數萬顆 GPU 的總內存裡——且這些 GPU 之間能像一台機器一樣彼此通信。英偉達同時統治了這兩個難題:一是搶在全行業之前鎖住 HBM 供應,二是長期重金投入網路技術。
當然,訓練並非唯一的 AI 工作負載,另一個是推理(Inference)。推理包含三個主要部分:
1、預填充(Prefill):將大語言模型(LLM)需要了解的所有內容編碼為可理解的狀態;這是高度並行的,算力至關重要。
2、解碼第一部分(Decode Part 1):包括讀取KV 快取(KV Cache)——其中存儲了上下文,包括預填充階段的輸出——以進行注意力計算。這是一個帶寬至關重要的串行步驟,且內存需求是多變的且日益增大。
3、解碼第二部分(Decode Part 2):是在模型權重上進行的前向反饋計算(Feed-forward computation);這也是一個帶寬至關重要的串行步驟,其內存需求由模型的大小決定。
這兩個解碼步驟在模型的每一層交替進行(它們是交錯運行而非單純順序運行),也就是說,解碼是串行的,且受內存帶寬限制(Memory-bandwidth bound)。 每生成一個Token,都必須完整讀取兩個不同的內存池:存儲上下文且隨每個令牌增長的 KV 快取,以及模型權重本身。兩者都必須被完整讀取才能產生一個單一的輸出Token。
GPU 完美應對了這三種需求:為預填充提供高算力,為 KV 快取和權重提供充足的 HBM,以及在單顆 GPU 內存不足時透過晶片互連實現內存池化。換句話說,適用於訓練的架構同樣適用於推理——看看 SpaceX 與 Anthropic 達成的交易就明白了。Anthropic 在官方部落格中提到:
SpaceX 保留了 Colossus 2——推測既用於未來模型的訓練,也用於現有模型的推理。他們之所以能在同一個資料中心同時完成這兩項任務,正是因為 xAI 的模型目前使用量並不大;更切中本文要點的是,他們能這樣做是因為訓練和推理都可以在 GPU 上完成。事實上,Anthropic 簽約使用的這些原屬於 Colossus 1 的 GPU 最初也是用於訓練的;GPU 如此靈活是一個巨大的優勢。
解讀Cerebras
Cerebras 製造的東西完全不同。雖然矽晶圓的直徑為 300mm,但“光罩極限”(Reticle limit)——即光刻工具在晶圓上能曝光的最大面積——約為 26mm x 33mm。這是晶片的有效尺寸上限;超越這個限制就需要透過晶片間的“中介層”將兩個獨立晶片連接起來,這正是英偉達在 B200 上所做的。而 Cerebras 發明了一種跨越“划片線”(Scribe lines,即光罩曝光之間的邊界)布線的方法,將整塊晶圓製成一顆單一晶片,無需相對緩慢的晶片間互連。
其結果是:一顆擁有恐怖算力和海量 SRAM、且存取速度快到驚人的晶片。資料對比:Cerebras 最新的 WSE-3 擁有 44GB 片上 SRAM,帶寬達 21 PB/s;而英偉達 H100 擁有 80GB HBM,帶寬為 3.35 TB/s。換句話說,WSE-3 的內存雖然只有 H100 的一半多,但內存帶寬是後者的 6000 倍。
之所以將 WSE-3 與 H100 比較,是因為 H100 是目前推理領域使用最廣的晶片,而推理顯然是 Cerebras 最擅長的。你可以用 Cerebras 訓練,但其晶片間的聯網故事並不誘人,這意味著所有的算力和片上內存大多只是閒置;真正有意義的是它能以遠超 GPU 的速度產生令牌流。
然而,訓練的局限性也同樣存在於推理中:只要所有資料能裝進片上內存,Cerebras 的速度就是極致體驗;一旦內存需求超出上限(無論是模型更大,還是更常見的 KV 快取更長),Cerebras 就不再合理,尤其是考慮到其價格。這種“整塊晶圓即晶片”的技術意味著高良率是極大的挑戰,從而大幅推高了成本。
與此同時,我確實認為 Cerebras 風格的晶片會有市場:目前該公司正強調速度對於編程的實用性——推理意味著需要產生大量tokens,這意味著大幅提升每秒token數等同於更快的思考速度。但我認為這是一個暫時的用例,原因稍後解釋。真正重要的是人類需要等待多久才能得到答案,隨著 AI 穿戴設備等產品日益普及,交互速度(尤其是語音,這將取決於令牌生成速度)將對用戶體驗產生實質性影響。
智能體推理Agentic Inference
我此前曾提出,在 LLM 時代我們經歷了三個拐點:
1、ChatGPT 證明了Token預測的實用性。
2、o1引入了推理概念,即更多的令牌意味著更好的答案。
3、Opus 4.5和Claude Code引入了首批實用的Agents,它們能利用推理模型和一套包含工具使用、工作校驗等的框架來實際完成任務。
雖然這些都屬於“推理”範疇,但我認為,提供答案——我稱之為“應答推理”(Answer inference)——與執行任務——我稱之為“智能體推理(Agentic inference)”之間,正變得界限分明。Cerebras 的目標市場是“應答推理”;而從長遠來看,我認為“智能體推理”的架構將與 Cerebras 甚至 GPU 的路徑截然不同。
我之前提到,快推理用於程式設計只是暫時用例。具體來說,目前使用 LLM 編程仍需人類參與。是人類定義任務、檢查程式碼、提交拉取請求(PR)等;然而,不難預見未來這一切將完全由機器處理。這將廣泛適用於智能體工作:智能體的真正威力不在於為人類工作,而在於脫離人類干預獨立工作。
以此類推,解決智能體推理的最佳路徑將與應答推理大相徑庭。應答推理最看重的是token速度;而智能體推理最看重的是記憶(Memory)。 智能體需要上下文、狀態和歷史。其中一部分存在於活躍的 KV 快取中,一部分存在於主機內存或 SSD 中,更多則存在於資料庫、日誌、嵌入和物件存儲中。關鍵點在於:智能體推理將不再是 GPU 回答一個問題,而是圍繞模型構建的複雜內存層級系統。
至關重要的一點是,這種智能體專用內存層級暗示了一種必然的權衡:以速度換容量。 而且,如果系統中沒有人工在實時參與,較低的速度就不再是核心考量。如果一個智能體在運行通宵任務,它不在乎延遲對用戶體驗的影響;它只在乎能否完成任務。如果全新的內存方法能讓複雜任務成為可能,那麼些許延遲是可以接受的。
與此同時,如果延遲不再是首要考量,那麼對極致算力和高帶寬內存(HBM)的追求就顯得不合時宜:如果延遲不是硬約束,那麼更慢、更便宜的內存(如傳統 DRAM)就更具吸引力。如果整個系統主要在等待內存回應,晶片也不需要追求最尖端的製程。這將引發架構的深刻變革,但並不意味著現有架構會消失:
訓練(Training):將持續重要,英偉達目前的架構(高算力、高帶寬內存、高速網路)將繼續統治。
應答推理(****Answer inference):將是一個重要但相對較小的市場,極致速度(如 Cerebras 或 Groq)將非常有用。
智能體推理(Agentic inference):將逐漸從 GPU 中解耦。GPU 在預填充時浪費內存、在解碼時浪費算力的短板會凸顯。取而代之的是由高容量、低成本內存主導的系統,配合“足夠好”的算力。事實上,CPU 處理工具調用的速度可能比 GPU 的速度更重要。
同時,這些類別在規模和重要性上並不等同。具體而言,智能體推理將是未來最大的市場,因為它不受人類數量或時間的限制。今天的智能體只是花俏的應答推理;未來的真正智能體推理將是計算機根據其他計算機的指令完成工作,其市場規模不隨人口增長,而隨算力擴張。
智能體推理對算力的啟示
到目前為止,提及“隨算力擴張”通常隱含著對英偉達的看好。然而,英偉達迄今為止的相對優勢很大程度上建立在延遲上:英偉達晶片算力極快,但為了讓算力不閒置,需要巨額投入以擴張 HBM 和網路。如果延遲不再是核心約束,英偉達的方案似乎就不再值得支付溢價。
英偉達也意識到了這一轉變:該公司推出了名為 Dynamo 的推理框架來幫助解構推理的不同部分,並推出獨立內存和 CPU 機架等產品,以實現更大的 KV 快取和更快的工具調用,從而讓昂貴的 GPU 保持忙碌。但最終,超大規模雲廠商可能會為了成本和簡便性,在非 GPU 受限的智能體推理任務中尋找替代方案。
與此同時,中國雖然缺乏頂尖算力,卻擁有智能體推理所需的一切:足夠快的 GPU、足夠快的 CPU、DRAM 和硬碟等。挑戰當然在於訓練用的算力;此外,應答推理在國家安全(尤其是軍事應用)方面可能更為重要。
另一個有趣的角度是空間(Space):更慢的晶片反而讓“太空資料中心”更具可行性。首先,如果內存可以外掛,晶片可以做得更簡單、運行更涼爽。其次,老舊製程由於物理尺寸更大,能更好地抵禦太空輻射。第三,老舊製程功耗更低,散熱壓力更小。第四,非尖端製程意味著更高的可靠性,這在無法維修的衛星上至關重要。
英偉達 CEO 黃仁勳常說“摩爾定律已死”;他的意思是未來的提速將依靠系統級創新。然而,當智能體可以脫離人類獨立行動時,最深刻的啟示或許是:摩爾定律已經不再重要。我們獲得更多算力的方式,是意識到我們現有的算力其實已經“足夠好”了。