谷歌 TPU：挑戰英偉達壟斷的秘密武器 - Keefer's Substack

Keefer's Substack

谷歌 TPU：挑戰英偉達壟斷的秘密武器

0:00

-26:51

谷歌 TPU：挑戰英偉達壟斷的秘密武器

Mar 23, 2026

前 Google TPU 工程師 Henry 深度解析 Google TPU (Tensor Processing Unit) 的技術細節、競爭優勢以及與英偉達（NVIDIA）GPU 的市場博弈。

以下為該內容的摘要：

1. TPU 的核心定位與優勢

定製化架構（ASIC）： TPU 是專門為機器學習中的矩陣計算設計的定製加速器。與 GPU 的多線程單指令（SIMT）架構不同，TPU 採用類似流水線/接力賽的設計，能減少調度開銷，提高計算單元的利用率。
系統級競爭力： TPU 的優勢不在於單卡性能，而在於 System Level（集群規模）。透過 3D Torus 拓撲網絡與 OCS（光纖交換機） 技術，數千顆芯片能像單一芯片般高效協同工作。
高性價比（TCO）： 對於特定的大模型（如 Gemini），TPU 在物理芯片與軟體層面進行了深度定製，其**總體擁有成本（TCO）**與訓練效率均優於 GPU。此外，TPU 在數據中心布建上使用銅線連接而非昂貴的網絡交換機，進一步降低了基礎設施成本。

2. 軟體生態與門檻

XLA 編譯器： Google 使用 XLA（靜態編譯器） 作為核心，能對全局負載進行優化與算子融合。
黑盒挑戰： 與英偉達成熟的 CUDA 生態相比，XLA 被視為一個「黑盒」，開發者難以獨立除錯（debug），通常需要 Google 工程師的深度支援。這也是為什麼如 Anthropic 等公司需要雇用熟悉 Google 生態的工程師來部署模型。

3. 市場現況與挑戰

頂級模型公司的轉向： 2024 年後，Apple Intelligence 全面使用 TPU 訓練，Anthropic 與 Meta 也相繼簽下巨額協議租用或採購 TPU，TPU 正成為英偉達的有力替代方案。
供應鏈瓶頸： TPU 的產能高度依賴台積電（TSMC）的 CoWoS 封裝技術以及三星、SK 海力士等廠商的 HBM（高頻寬記憶體） 供應。目前英偉達在這些關鍵零組件的採購上仍具備壟斷性的議價權。
通用性 vs. 專用性： 作為定製化芯片（ASIC），TPU 的風險在於若未來 AI 算法發生劇烈範式轉移（不再基於 Transformer 或矩陣計算），其靈活性將不如通用性強的 GPU。

4. TPU 的演進歷史與未來

發展歷程： TPU 起源於 2013 年解決語音識別成本過高的需求，從最初僅支持推理的 V1，演進到支持訓練的 V2、V3，以及現在針對大模型優化的 V6、V7、V8 系列。
未來格局： 專家預測未來 AI 芯片市場將是 GPU 與 TPU 並存的狀態。GPU 勝在通用性與算法疊代速度，而 TPU 則在大規模部署、穩定模型訓練與超高吞吐量推理（如 Gemini 或 ChatGPT 等擁有數百萬用戶的服務）上具備核心優勢。

Discussion about this episode

Ready for more?

#nojs-banner { position: fixed; bottom: 0; left: 0; padding: 16px 16px 16px 32px; width: 100%; box-sizing: border-box; background: red; color: white; font-family: -apple-system, "Segoe UI", Roboto, Helvetica, Arial, sans-serif, "Apple Color Emoji", "Segoe UI Emoji", "Segoe UI Symbol"; font-size: 13px; line-height: 13px; } #nojs-banner a { color: inherit; text-decoration: underline; } This site requires JavaScript to run correctly. Please turn on JavaScript or unblock scripts