谷歌与英伟达展开芯片战争的利器, TPU的前世今生

时间:2025-12-03   编辑:什么新闻

2025年11月,一条看似普通的供应链传闻引发了AI芯片市场的剧烈震动:Meta正在考虑从2027年起在其数据中心部署谷歌TPU,交易价值可能达到数十亿美元,并可能在2026年通过谷歌云租用TPU算力。

消息传出当天,英伟达股价暴跌近7%,市值蒸发数百亿美元,而谷歌母公司Alphabet股价则大涨超4%。更令市场震惊的是,就在一个月前,AI明星公司Anthropic刚刚宣布与谷歌达成数百亿美元的合作协议,将部署多达100万个TPU芯片来训练Claude大模型。

英伟达CEO黄仁勋罕见地公开表态,强调GPU在性能、通用性和可移植性方面"远优于"ASIC,试图稳定市场情绪。但资本市场显然已经嗅到了变化的气息:在AI芯片这个英伟达统治了十年的领域,谷歌的TPU正在从"内部黑科技"进化成真正具备威胁力的竞争武器。

十年磨一剑,从"救火"到"烧火"

TPU的诞生并非源于谷歌想要挑战英伟达,而是一次被逼无奈的自救行动。2015年,谷歌内部工程团队发现了一个严重问题:随着深度学习在搜索、广告、翻译等核心业务中的应用快速扩展,如果全面启用神经网络模型,谷歌全球数据中心的电力消耗将暴增十倍以上。

谷歌TPU

即使把市场上所有GPU都买下来,也无法满足需求,更不用说天文数字般的成本。谷歌高层做了一个大胆决定:自己设计一款专门用于深度学习推理的ASIC芯片,目标不是性能最强,而是能效最高、成本最低、可大规模部署。

2016年投入使用的第一代TPU v1主要服务于谷歌翻译等推理任务,证明了ASIC路线的可行性。但真正的转折出现在2017年,当Transformer架构横空出世时,谷歌立刻意识到这种高度规则化、矩阵密度极高的计算模式,简直是为TPU量身定制的。

从TPU v2开始,谷歌不仅开放芯片给云客户,还开始支持训练任务,并构建了XLA编译器、高效Pod架构、液冷系统等全栈能力。到了TPU v4时代,谷歌已经能够把4096颗芯片组成超节点,通过自研的2D/3D环面拓扑网络和光路交换技术OCS,让数千颗加速器像一颗巨型芯片般协同工作,成功训练出PaLM 540B大模型。

2024年发布的TPU v6代号Trillium标志着谷歌战略重心彻底转向推理。随着生成式AI的爆发,推理成本迅速成为全球AI公司最大的单项支出,甚至超过训练成本。v6从架构到指令集全部围绕推理负载重新设计,FP8吞吐量暴涨、片上SRAM容量翻倍、KV缓存访问优化,能效比上一代提升67%。

2025年推出的第七代TPU v7代号Ironwood,则是这一战略的完整体现。Ironwood是TPU历史上第一款专用推理芯片,单芯片FP8算力达到4.6 petaFLOPS,略高于英伟达B200的4.5 petaFLOPS,内存配置192GB HBM3e,带宽7.4 TB/s。

更关键的是,一个Ironwood Pod可集成9216颗芯片,FP8峰值性能超过42.5 exaFLOPS。谷歌在技术文档中披露,在特定FP8负载下,该Pod性能相当于最接近竞品系统的118倍,这不是单芯片的差距而是系统架构与网络拓扑的代际碾压。

成本战才是真正的战场

表面上看,TPU与英伟达GPU的竞争是性能之争,但内行都知道,真正的战场在成本。所谓"CUDA税",是指英伟达GPU从生产到销售过程中叠加的高额利润。一颗GPU的生产成本可能只有几千美元,但卖给云厂商时价格往往高达数万美元,毛利率超过八成。全球所有训练大模型的科技公司几乎都要支付这项成本,而且无法摆脱。

OpenAI依赖英伟达GPU进行训练和推理,其算力开支已经远超公司总营收,英伟达的定价模式使这些公司无论怎么优化模型,都难以实现规模化商业利润。

谷歌的策略完全不同。谷歌采用自研TPU,整个供应链由谷歌控制,从芯片设计到制造、从网络方案到软件栈再到数据中心布局,全部内部优化。

由于不需要支付英伟达税,谷歌的算力成本结构天生比竞争对手更具优势。根据半导体分析机构SemiAnalysis的测算,从谷歌内部视角看,TPU v7服务器的总拥有成本比英伟达GB200服务器低约44%。即便加上谷歌和芯片供应商博通的利润,Anthropic通过谷歌云使用TPU的成本,仍比直接购买GB200低约30%。

这种成本优势在推理时代尤为致命。当一个企业每年在推理上消耗数千万美元甚至上亿美元时,如果迁移到TPU可以节省三到五成成本,那么迁移几乎是一种不可回避的商业决策。谷歌不仅在内部获得低成本,还将这种成本优势传递给谷歌云的客户,通过TPU服务为客户提供更低价格的推理能力,从而吸引大量模型公司和企业迁移到谷歌平台。

根据行业报告,谷歌TPU v6e在每美元AI性能上比GPU高出4倍,实际部署中成本节省可达65%、吞吐量提升3倍。这些数字不是营销话术,而是真实客户案例的验证结果。

三条路线的终极较量

谷歌、英伟达和亚马逊代表了AI芯片市场的三条不同路线。英伟达的路线是通用性和生态锁定,GPU具备海量并行计算单元,能够支持从深度学习到图形渲染再到科学计算等多种负载,而CUDA生态几乎锁死了全行业的开发路径。

一旦模型或框架为CUDA优化,就很难切换到其他芯片架构。这种垄断能力类似于苹果在消费品市场的生态控制。但GPU的缺陷也十分明显:它并非为推理优化,硬件资源在实际推理场景中可能并非最优配置,导致单位能耗效率不如ASIC,且英伟达的定价权极高。

谷歌的路线是专用化和全栈整合。谷歌不追求硬件通用性而是追求Transformer负载的极致效率。TPU的核心是脉动阵列,专门为矩阵乘法设计,使其在深度学习计算中特别高效。

谷歌的核心优势在于全栈整合能力,他们不仅控制芯片,还控制模型、框架、编译器、分布式训练系统与数据中心基础设施,这让谷歌可以做出许多GPU无法实现的系统级优化。例如,Ironwood系统的年可用性达到99.999%,即全年停机时间不到六分钟,这在超大规模AI集群中堪称恐怖,远超基于GPU的训练集群常见水平。

亚马逊则走了第三条路线,其芯片战略出发点是降低AWS的基础设施成本同时减少对英伟达的依赖,因此开发了Trainium和Inferentia。作为云厂商,AWS关注的是规模效应与经济性,而非像谷歌那样构建一个统一的AI算力体系。Trainium的设计更灵活,在不少情况下接近GPU的适配能力,但性能针对训练和推理分别做了优化。亚马逊通过芯片降低内部成本并将节省部分反馈给客户,从而提升AWS的竞争力。

目前来看,英伟达仍然拥有最强大的生态和最广泛的客户基础,GPU在训练市场的统治地位短期内难以被撼动。但谷歌通过十年积累,已经在推理市场构建起一套完全不同的竞争体系。当AI行业的竞争从模型维度转向成本维度,从训练能力转向推理规模,从生态构建转向基础设施整合时,谷歌凭借TPU、全球数据中心布局、代际升级节奏和全栈能力,有望在这一新周期中构建比过去十年更牢固的竞争壁垒。

TPU从一个"不得不做的救命项目"进化成挑战英伟达的核心武器,这个过程证明了在AI时代,单纯依靠硬件性能已经不够,真正的竞争力来自于系统级的效能优化和商业模式的创新。当推理成本成为AI公司最大的支出项时,谁能提供最经济的解决方案,谁就能在下一个十年占据主动。

上一篇:谷歌TPU调研     下一篇:没有了