Contents ...
udn網路城邦
NVIDIA取得Groq技術之深層邏輯,不僅是「GPU+LPU」架構優勢,更透過「軟體定義硬體」實現「運算無感化」!
2025/12/29 14:59
瀏覽69
迴響0
推薦1
引用0







本文我基本認同,但需要下述重要補充。



全球AI運算競爭態勢:



目前競爭已形成「三足鼎立」態勢,各家針對「記憶體牆」(Memory Wall)與「延遲問題」提出完全不同的解方:



一、異質架構陣營:NVIDIA + Groq

• 技術核心:將「通用性控制」與「確定性推論」分離

• 解決路徑:GPU處理複雜邏輯,LPU之SRAM解決HBM存取延遲

• 優勢:軟體生態系成熟(CUDA)、適應性強、可處理動態工作負載

• 劣勢:跨機櫃通訊仍依賴InfiniBand電路交換,存在O-E-O轉換延遲



二、晶圓級運算陣營:Cerebras WSE-3

• 技術核心:將整塊晶圓(46,225 mm²)做成單一晶片

• 規格:4兆電晶體、90萬AI核心、44GB片上SRAM、125 petaflops

• 效能:Llama 3.1-405B達969 tokens/sec,較GPU快10-75倍

• 優勢:徹底消滅晶片間通訊延遲,記憶體頻寬為H100之7,000倍

• 劣勢:成本極高、散熱挑戰、彈性較低



關鍵威脅:Cerebras之推論速度在某些場景甚至高於LPU。NVIDIA取得Groq後,Cerebras成為其在專用推論晶片領域之主要競爭對手。



三、垂直整合陣營:Google TPU + OCS

Google之競爭優勢不僅在於TPU本身,更在於其Apollo/Palomar光通訊交換系統(OCS):

(一)OCS技術核心

• MEMS光學交換:使用2D鏡面陣列、透鏡、攝影機進行光束轉向

• 消除O-E-O轉換:傳統網路需進行「光-電-光」轉換,OCS允許訊號直接在光域交換

• 能耗降低40%、延遲降低30%:Google論文數據

• 動態拓撲重構:可在毫秒內重新繞道,軟體層級即時重構數萬顆TPU連線

• 規模:TPUv7 pod可達9,216顆TPU,使用48個300埠OCS交換機

(二)Google OCS對NVIDIA之衝擊

根據SemiAnalysis、LightCounting等專業分析:

• NVIDIA每顆GPU未來可能需要10個光收發器,Google僅需1.5個/TPU

• Google對LPO/CPO無興趣,因其OCS設計本身已極為高效

• NVIDIA之NVLink雖在機櫃內表現優異,但跨機櫃仍依賴InfiniBand電路交換



關鍵洞見1:NVIDIA急於引進Groq,本質上是為了在「單點推論效率」取得絕對領先,以彌補其在「跨機櫃網路通訊」成本較Google高昂之劣勢。這是「以電學對抗光學」之戰略選擇。



另外,台積電之COUPE(COmpact Universal Photonic Engine)封裝技術正在改變遊戲規則,可能直接威脅Google在光通訊架構上的領先地位。



且NVIDIA自2024年起大幅投資矽光子,Blackwell之後的架構(如2026年的Rubin)預計將全面導入CPO(共封裝光學),以應對NVLink Switch的頻寬壓力。根據NVIDIA官方部落格,Quantum-X Photonics與Spectrum-X Photonics將於2026年商用。



*** 結論(硬體)***:所以,隨著台積電CPO技術於2026年成熟量產,NVIDIA將同時擁有「LPU單點突破」與「CPO光學連結」兩張牌。這可能使NVIDIA在「單一機櫃內頻寬」追平甚至超越Google,同時在「推論效率」上保持領先。



關鍵洞見2:CUDA 13.1 的自動化能力,在導入 LPU 後,將會演進為一個 「智慧型異質調度器(Intelligent Heterogeneous Dispatcher)」。



未來的 CUDA 版本將不再只是分配 GPU 核心數,而是進行「任務性質識別」:



。 邏輯運算與預處理(GPU 負責): CUDA 將自動偵測程式碼中涉及條件分支(Branches)、複雜控制流或 RAG 檢索的部分,將其派發至 Blackwell/Rubin GPU。



。 確定性序列生成(LPU 負責): 針對 Transformer 架構中極度標準化的 Attention 與 FFN 層,CUDA 將利用 Groq 的編譯器技術,將其轉換為 LPU 的時序指令集(Timing-based Instructions)。



。 無感化編譯: 程式設計師只需撰寫標準的 PyTorch 或 JAX 代碼,CUDA 驅動程式會在底層自動完成「異質編譯」,實現真正的「軟體定義運算」。



*** 結論(軟體)***:購併 Groq 對 NVIDIA 軟體護城河的實質影響



NVIDIA 購併 Groq 並非僅僅是買下其硬體,而是為了取得 Groq 那套「強決定性編譯器」並將其 CUDA 化。



*** 綜合結論 ***:NVIDIA取得Groq技術之深層邏輯,不僅是「GPU+LPU」架構優勢,更是在「光通訊技術落後Google」之現實下,透過「軟體定義硬體」實現「運算無感化」——開發者僅需描述「要算什麼」,編譯器自動決定「在哪算」。這是比硬體規格更強大的競爭護城河。
























【深度解析】NVIDIA 為什麼一定要 Groq:「GPU + LPU」可能是AI推論爆發後,下一代的標準架構



本該休息的聖誕夜,NVIDIA 低調丟出一顆深水炸彈——

與 LPU(Language Processing Unit)推論晶片業者 Groq 達成非獨家授權合作,Groq 創辦人暨 CEO Jonathan Ross 及部分高階主管將加入 NVIDIA。



CNBC 一度傳出這是 200 億美元等級的併購案,但實際公布的結構更像 Meta × Scale AI 的模式:

不直接併購、不吃下公司,而是 吃下關鍵技術與關鍵人,巧妙避開反壟斷審查。



如果只把這件事理解成「NVIDIA 又買了一家新創」,那就太低估此次投資案的影響力了。

這其實是 NVIDIA 首度正式承認:GPU 並不是 AI 推論的終局。但也同時組成目前AI最強架構。






一、為什麼是 Groq?為什麼是 LPU?



Groq 不是一般新創。



創辦人 Jonathan Ross,正是當年在 Google 內部發起 TPU 計畫、並擔任第一代 TPU 架構師的人。他離開 Google 的理由很簡單:



「TPU 在軟硬體整合上,還有本質性的進步空間。」



於是 2016 年,Groq 誕生,核心理念只有一句話:



LLM 推論不是平行運算問題,而是時間問題。



這個觀點,直接導向了 LPU 架構,可以說LPU就是為了AI推論而生的最適設計。



LPU 的設計

• LLM 推論是 token-by-token 的序列生成

• 下一個 token,必須等上一個 token 完成

• 吞吐不是關鍵,延遲才是王道



因此 LPU 做了 GPU、TPU 都沒做的事:

• 不用外掛 HBM

• 晶片上配置 超大面積 SRAM

• 不需要 cache(因為資料位置在編譯期已完全確定)

• 編譯器直接把模型「攤平成時間表」



結果是什麼?



資料幾乎零延遲、執行完全確定性、推論效率逼近物理極限



這不是「GPU 或 TPU 的小改良」,而是完全不同的哲學。






二、GPU × LPU:不是競爭,而是上下游分工



市場最容易犯的錯誤,是想了解:



「LPU 會不會取代 GPU?」



真正該問的是:



「哪些工作,根本不該再由 GPU 來做?」



AI 工作負載自然會分裂成兩個世界



① 不確定性世界(GPU 的主場)

• 模型載入與切換

• Prompt 處理

• KV cache 管理

• Speculative decoding

• 多模型 routing(MoE、Agent)

• RAG、工具呼叫

• 動態 batch、控制流判斷



這些任務的共同點是:

• 分支多

• 邏輯複雜

• 模型與策略隨時會變



這是 GPU 存在的根本價值



GPU 的本質,是 AI 系統的 Control Plane(控制平面)。






② 確定性世界(LPU 的主場)

• Attention block

• FFN

• 已知 shape 的 token 推論

• 重複性極高、可預測的 kernel



這些任務的共同點是:

• 結構固定

• 重複性極高

• 嚴格時間序列



GPU 也能做,但不是最有效率的做法



LPU 的本質,是 AI 系統的 Data Plane(資料平面)。






NVIDIA 最合理的整合方式,不是把GPU跟LPU「合成一顆晶片」



關鍵不是把 LPU 塞進 GPU,而是:



GPU 負責「決定要做什麼」

LPU 負責「把確定的事做到最有效率」



實際運作會長得像這樣:

GPU

• 接收推論請求

• 決定模型與路徑

• 處理動態與不確定性

LPU

• 執行已排好序的推論工作

• 以最低延遲輸出 token



這是一個系統級異質運算架構,而不是單晶片競賽。






三、GPU + LPU vs 純 TPU 系統:誰更有長期優勢?



這裡,才是投資人真正該關心的比較。






市場上很多討論 TPU vs GPU的文章:



但今天真正的對手,已經不是「GPU 單打獨鬥」,而是 GPU + LPU 的異質系統。



如果不把「系統層級」攤開來看,無法得出正確結論。






1、兩種系統的「核心世界觀」完全不同



純 TPU 系統的世界觀是:



AI 的主要運算型態是可預期的張量乘法,只要把這件事做到最有效率即可



因此 TPU 系統的設計邏輯是:

• 用硬體鎖死「最常見的數學形式」

• 用 HBM 解決資料量問題

• 用整代晶片更新來追模型演進



這是一種 效率極高、但前提極強的假設。






GPU + LPU 系統的世界觀是:



AI 的上層是不確定的,但底層存在大量可壓榨的確定性



因此它的設計邏輯是:

• GPU 吞下所有不確定性

• LPU 只處理「已經確定、不會再變」的部分

• 把適應成本留在軟體與系統層,而不是硬體層



這是一種 為變化而生 但又 極其有效率 的架構。






二、在「AI 模型架構改變時」,兩者反應方式完全不同



這是最關鍵、也是投資人最該在意的地方。






當模型架構「小幅變動」時(attention 變體、參數放大)

TPU

• 仍能運作

• 但效能是否最優,取決於是否符合原始假設

• 真正的修正要等下一代 TPU

GPU + LPU

• GPU 立刻用新 kernel、新 runtime 接住

• LPU 只要推論流程不變,仍可繼續使用

• 風險主要在軟體,不在硬體



GPU+LPU 的適應速度明顯快於 TPU






當模型架構「中度變動」時(MoE、Agent、多模型協作)

TPU

• 問題開始浮現

• 動態 routing、條件分支、模型切換,並非 TPU 的強項

• 系統複雜度快速上升

GPU + LPU

• GPU 負責 routing、決策、控制流

• LPU 繼續只做固定推論

• 系統自然解耦,不需硬體重構



這一階段,GPU+LPU 開始明顯拉開差距






當模型架構「典範轉移」時(全新推論流程)



這才是「生死線」。

TPU

• 需要重新定義:

• 運算單元

• 記憶體配置

• 資料流假設

• 本質上就是:等下一代晶片救命

GPU + LPU

• GPU 先用軟體頂上

• 新的「確定性部分」再慢慢下放給 LPU

• 系統仍可持續運作



TPU 承擔的是「硬體世代風險」,GPU+LPU 承擔的是「軟體工程風險」



這對投資人來說,差異極大。






三、延遲、能耗、資本效率:誰在什麼條件下更好?



推論延遲

TPU

• 仍需經過 HBM

• 延遲存在物理下限

GPU + LPU

• 真正關鍵推論在 SRAM

• 延遲更接近理論極限



在即時推論(real-time inference)上,GPU+LPU 上限更高






能耗效率

TPU

• 在張量密集、穩定負載下表現極佳

GPU + LPU

• LPU 負責吃掉最耗能的推論段

• GPU 不再被迫做「不適合它的事」



在複雜實際工作負載中,GPU+LPU 更接近全系統最優解






資本配置與折舊風險(投資人重點)

TPU

• 架構與模型綁定

• 模型變 → 晶片可能提前折舊

GPU + LPU

• GPU 壽命由軟體延展

• LPU 專注固定場景,投資回收路徑清楚



GPU+LPU 的資本風險更可控






四、把差異說到最清楚



TPU 是「把未來假設寫進硬體」

GPU + LPU 是「讓硬體接受未來會變」



這不是技術優劣問題,而是設計哲學差異。






五、為什麼這讓 NVIDIA 比 Google 更有戰略彈性?



因為:

• Google 可以確保自己的模型世界長什麼樣子

• NVIDIA 必須活在「全世界模型都在亂變」的現實裡



在這個前提下:



GPU + LPU 幾乎是唯一合理的長期架構選擇






投資級最終結論

TPU

• 是極佳的內部成本武器

• 但風險集中、外溢效益有限

GPU + LPU

• 是為不確定世界設計的系統

• 更符合 AI 長期演化路徑






GPU + LPU 系統的優點與代價



優點:

• GPU 吸收所有不確定性(模型怎麼變都能接)

• LPU 專心壓榨推論延遲與能耗

• 訓練 / 控制 / 推論分層清楚

• 對 AI 架構變動的「適應能力」最強



代價:

• 系統複雜度提高

• 需要極強的軟體與系統整合能力

• 只有少數公司玩得起



這正是 NVIDIA 的核心優勢所在。憑藉著極其充裕的現金流,NVIDIA 有能力投入巨額研發,完善生態系統供業界使用;這不僅能進一步擴大獲利,更鞏固了其市場護城河,達成企業與生態系的雙贏。






四、真正的結論:這不是晶片戰,而是系統戰



如果只看單一晶片:

• GPU 不夠省電

• TPU 不夠彈性

• LPU 不夠通用



但如果從 系統第一性原理來看:



GPU 管理變化

LPU 壓榨確定性

NVIDIA 統一整個堆疊



這解釋了為什麼 NVIDIA 不會放棄 GPU,

卻一定要把 LPU 納入版圖。






未來的AI發展



GPU 是 AI 世界的作業系統,

LPU 是推論時代的加速器,

NVIDIA 要的是「整個系統的主導權」。






免責聲明



本文僅為個人對半導體與 AI 架構之產業研究與分析,不構成任何投資建議,亦不保證市場走勢或個股表現。投資有風險,請自行判斷並承擔相關風險。






Hashtags












有誰推薦more