兩名知情人士周日告訴路透社，受市場對這家 AI 芯片公司股票需求持續升溫的推動，Cerebras Systems 最快將於周一調整其首次公開募股（IPO）的發行規模與定價。消息人士表示，公司正考慮將發行價區間由原定的每股 115–125 美元上調至 150–160 美元，發行股數也由 2800 萬股擴至 3000 萬股；因資訊尚未公開，兩人均要求匿名。

半導體股的這輪持續走高，根本驅動當然是 AI——尤其是市場逐漸意識到：智能體(Agents）將吞下海量算力（Compute）。但 Cerebras 所指向的命題更為寬闊：迄今為止，AI 的算力敘事幾乎只關於 GPU、只關於英偉達（Nvidia）；而未來的圖景，將日益異構化（Heterogeneous）。

GPU時代

GPU如何成為AI中心的故事已是老生常談，簡而言之：

正如螢幕上繪製像素是一個並行過程（Parallel process）——處理單元越多，圖形渲染就越快——AI 計算同樣如此：處理單元數量直接決定計算速度。
英偉達正是順勢握住了這種"雙重用途"：它讓圖形處理器變得可編程（Programmable），又以 CUDA 這套完整軟體生態，把這種編程能力推向所有開發者。
圖形與 AI 的根本差別，在於問題規模——模型遠比影片遊戲的textures龐大。由此帶來兩條連鎖演進：單顆 GPU 上的高帶寬內存（HBM, High-bandwidth memory）容量急劇擴張；晶片間互聯（Chip-to-chip networking）也出現重大突破，使多顆晶片得以作為一個可尋址系統（Addressable system）協同工作。這兩條線上，英偉達都處於領先。
GPU 的頭號用例始終是訓練，而訓練對上面第三點尤為苛刻。每一個訓練步驟內部是高度並行的，但步驟之間是串行的：進入下一步之前，每顆 GPU 都必須把自己的結果同步給所有其他 GPU。這就是為什麼一個萬億參數（Trillion-parameter）的模型，必須裝進數萬顆 GPU 的總內存裡——且這些 GPU 之間能像一台機器一樣彼此通信。英偉達同時統治了這兩個難題：一是搶在全行業之前鎖住 HBM 供應，二是長期重金投入網路技術。

當然，訓練並非唯一的 AI 工作負載，另一個是推理（Inference）。推理包含三個主要部分：

1、預填充（Prefill）：將大語言模型（LLM）需要了解的所有內容編碼為可理解的狀態；這是高度並行的，算力至關重要。

2、解碼第一部分（Decode Part 1）：包括讀取KV 快取（KV Cache）——其中存儲了上下文，包括預填充階段的輸出——以進行注意力計算。這是一個帶寬至關重要的串行步驟，且內存需求是多變的且日益增大。

3、解碼第二部分（Decode Part 2）：是在模型權重上進行的前向反饋計算（Feed-forward computation）；這也是一個帶寬至關重要的串行步驟，其內存需求由模型的大小決定。

這兩個解碼步驟在模型的每一層交替進行（它們是交錯運行而非單純順序運行），也就是說，解碼是串行的，且受內存帶寬限制（Memory-bandwidth bound）。 每生成一個Token，都必須完整讀取兩個不同的內存池：存儲上下文且隨每個令牌增長的 KV 快取，以及模型權重本身。兩者都必須被完整讀取才能產生一個單一的輸出Token。

GPU 完美應對了這三種需求：為預填充提供高算力，為 KV 快取和權重提供充足的 HBM，以及在單顆 GPU 內存不足時透過晶片互連實現內存池化。換句話說，適用於訓練的架構同樣適用於推理——看看 SpaceX 與 Anthropic 達成的交易就明白了。Anthropic 在官方部落格中提到：

“我們已簽署協議，使用 SpaceX Colossus 1 資料中心的所有計算容量。這讓我們獲得了超過 300 兆瓦的新容量（超過 22 萬顆英偉達 GPU）。這將直接提升 Claude Pro 和 Claude Max 用戶的服務能力。”

SpaceX 保留了 Colossus 2——推測既用於未來模型的訓練，也用於現有模型的推理。他們之所以能在同一個資料中心同時完成這兩項任務，正是因為 xAI 的模型目前使用量並不大；更切中本文要點的是，他們能這樣做是因為訓練和推理都可以在 GPU 上完成。事實上，Anthropic 簽約使用的這些原屬於 Colossus 1 的 GPU 最初也是用於訓練的；GPU 如此靈活是一個巨大的優勢。

解讀Cerebras

Cerebras 製造的東西完全不同。雖然矽晶圓的直徑為 300mm，但“光罩極限”（Reticle limit）——即光刻工具在晶圓上能曝光的最大面積——約為 26mm x 33mm。這是晶片的有效尺寸上限；超越這個限制就需要透過晶片間的“中介層”將兩個獨立晶片連接起來，這正是英偉達在 B200 上所做的。而 Cerebras 發明了一種跨越“划片線”（Scribe lines，即光罩曝光之間的邊界）布線的方法，將整塊晶圓製成一顆單一晶片，無需相對緩慢的晶片間互連。

其結果是：一顆擁有恐怖算力和海量 SRAM、且存取速度快到驚人的晶片。資料對比：Cerebras 最新的 WSE-3 擁有 44GB 片上 SRAM，帶寬達 21 PB/s；而英偉達 H100 擁有 80GB HBM，帶寬為 3.35 TB/s。換句話說，WSE-3 的內存雖然只有 H100 的一半多，但內存帶寬是後者的 6000 倍。

之所以將 WSE-3 與 H100 比較，是因為 H100 是目前推理領域使用最廣的晶片，而推理顯然是 Cerebras 最擅長的。你可以用 Cerebras 訓練，但其晶片間的聯網故事並不誘人，這意味著所有的算力和片上內存大多只是閒置；真正有意義的是它能以遠超 GPU 的速度產生令牌流。

然而，訓練的局限性也同樣存在於推理中：只要所有資料能裝進片上內存，Cerebras 的速度就是極致體驗；一旦內存需求超出上限（無論是模型更大，還是更常見的 KV 快取更長），Cerebras 就不再合理，尤其是考慮到其價格。這種“整塊晶圓即晶片”的技術意味著高良率是極大的挑戰，從而大幅推高了成本。

與此同時，我確實認為 Cerebras 風格的晶片會有市場：目前該公司正強調速度對於編程的實用性——推理意味著需要產生大量tokens，這意味著大幅提升每秒token數等同於更快的思考速度。但我認為這是一個暫時的用例，原因稍後解釋。真正重要的是人類需要等待多久才能得到答案，隨著 AI 穿戴設備等產品日益普及，交互速度（尤其是語音，這將取決於令牌生成速度）將對用戶體驗產生實質性影響。

智能體推理Agentic Inference

我此前曾提出，在 LLM 時代我們經歷了三個拐點：

1、ChatGPT 證明了Token預測的實用性。

2、o1引入了推理概念，即更多的令牌意味著更好的答案。

3、Opus 4.5和Claude Code引入了首批實用的Agents，它們能利用推理模型和一套包含工具使用、工作校驗等的框架來實際完成任務。

雖然這些都屬於“推理”範疇，但我認為，提供答案——我稱之為“應答推理”（Answer inference）——與執行任務——我稱之為“智能體推理（Agentic inference）”之間，正變得界限分明。Cerebras 的目標市場是“應答推理”；而從長遠來看，我認為“智能體推理”的架構將與 Cerebras 甚至 GPU 的路徑截然不同。

我之前提到，快推理用於程式設計只是暫時用例。具體來說，目前使用 LLM 編程仍需人類參與。是人類定義任務、檢查程式碼、提交拉取請求（PR）等；然而，不難預見未來這一切將完全由機器處理。這將廣泛適用於智能體工作：智能體的真正威力不在於為人類工作，而在於脫離人類干預獨立工作。

以此類推，解決智能體推理的最佳路徑將與應答推理大相徑庭。應答推理最看重的是token速度；而智能體推理最看重的是記憶（Memory）。 智能體需要上下文、狀態和歷史。其中一部分存在於活躍的 KV 快取中，一部分存在於主機內存或 SSD 中，更多則存在於資料庫、日誌、嵌入和物件存儲中。關鍵點在於：智能體推理將不再是 GPU 回答一個問題，而是圍繞模型構建的複雜內存層級系統。

至關重要的一點是，這種智能體專用內存層級暗示了一種必然的權衡：以速度換容量。 而且，如果系統中沒有人工在實時參與，較低的速度就不再是核心考量。如果一個智能體在運行通宵任務，它不在乎延遲對用戶體驗的影響；它只在乎能否完成任務。如果全新的內存方法能讓複雜任務成為可能，那麼些許延遲是可以接受的。

與此同時，如果延遲不再是首要考量，那麼對極致算力和高帶寬內存（HBM）的追求就顯得不合時宜：如果延遲不是硬約束，那麼更慢、更便宜的內存（如傳統 DRAM）就更具吸引力。如果整個系統主要在等待內存回應，晶片也不需要追求最尖端的製程。這將引發架構的深刻變革，但並不意味著現有架構會消失：

訓練（Training）：將持續重要，英偉達目前的架構（高算力、高帶寬內存、高速網路）將繼續統治。

應答推理（****Answer inference）：將是一個重要但相對較小的市場，極致速度（如 Cerebras 或 Groq）將非常有用。

智能體推理（Agentic inference）：將逐漸從 GPU 中解耦。GPU 在預填充時浪費內存、在解碼時浪費算力的短板會凸顯。取而代之的是由高容量、低成本內存主導的系統，配合“足夠好”的算力。事實上，CPU 處理工具調用的速度可能比 GPU 的速度更重要。

同時，這些類別在規模和重要性上並不等同。具體而言，智能體推理將是未來最大的市場，因為它不受人類數量或時間的限制。今天的智能體只是花俏的應答推理；未來的真正智能體推理將是計算機根據其他計算機的指令完成工作，其市場規模不隨人口增長，而隨算力擴張。

智能體推理對算力的啟示

到目前為止，提及“隨算力擴張”通常隱含著對英偉達的看好。然而，英偉達迄今為止的相對優勢很大程度上建立在延遲上：英偉達晶片算力極快，但為了讓算力不閒置，需要巨額投入以擴張 HBM 和網路。如果延遲不再是核心約束，英偉達的方案似乎就不再值得支付溢價。

英偉達也意識到了這一轉變：該公司推出了名為 Dynamo 的推理框架來幫助解構推理的不同部分，並推出獨立內存和 CPU 機架等產品，以實現更大的 KV 快取和更快的工具調用，從而讓昂貴的 GPU 保持忙碌。但最終，超大規模雲廠商可能會為了成本和簡便性，在非 GPU 受限的智能體推理任務中尋找替代方案。

與此同時，中國雖然缺乏頂尖算力，卻擁有智能體推理所需的一切：足夠快的 GPU、足夠快的 CPU、DRAM 和硬碟等。挑戰當然在於訓練用的算力；此外，應答推理在國家安全（尤其是軍事應用）方面可能更為重要。

另一個有趣的角度是空間（Space）：更慢的晶片反而讓“太空資料中心”更具可行性。首先，如果內存可以外掛，晶片可以做得更簡單、運行更涼爽。其次，老舊製程由於物理尺寸更大，能更好地抵禦太空輻射。第三，老舊製程功耗更低，散熱壓力更小。第四，非尖端製程意味著更高的可靠性，這在無法維修的衛星上至關重要。

英偉達 CEO 黃仁勳常說“摩爾定律已死”；他的意思是未來的提速將依靠系統級創新。然而，當智能體可以脫離人類獨立行動時，最深刻的啟示或許是：摩爾定律已經不再重要。我們獲得更多算力的方式，是意識到我們現有的算力其實已經“足夠好”了。

NVDA-3.43%

XAI-5.88%

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

熱門話題
查看更多
#
Gate廣場五月交易分享
189.05萬熱度
#
CLARITY法案參議院通關
174.98萬熱度
#
Polymarket每日熱點
96.26萬熱度
#
美批准中企採購輝達H200晶片
74.57萬熱度
#
WCTC交易王PK
79.49萬熱度

看懂 Cerebras：算力催生AI思考 記憶賦能Agent做事

GPU時代

解讀Cerebras

智能體推理Agentic Inference

智能體推理對算力的啟示

熱門話題

Gate廣場五月交易分享

CLARITY法案參議院通關

Polymarket每日熱點

美批准中企採購輝達H200晶片

WCTC交易王PK

已置頂

看懂 Cerebras：算力催生AI思考記憶賦能Agent做事