中国“黑豹Ⅱ”机器人挑战世界冠军 镜识科技展现“超物种”实
全球顶流创作者MrBeast最新发布的竞速视频引发热议,将“人类VS未来机器”的话题推向热搜。视频中,巴黎奥运百米冠军、有

2025年11月,一条看似普通的供应链传闻引发了AI芯片市场的剧烈震动:Meta正在考虑从2027年起在其数据中心部署谷歌TPU,交易价值可能达到数十亿美元,并可能在2026年通过谷歌云租用TPU算力。
消息传出当天,英伟达股价暴跌近7%,市值蒸发数百亿美元,而谷歌母公司Alphabet股价则大涨超4%。更令市场震惊的是,就在一个月前,AI明星公司Anthropic刚刚宣布与谷歌达成数百亿美元的合作协议,将部署多达100万个TPU芯片来训练Claude大模型。
英伟达CEO黄仁勋罕见地公开表态,强调GPU在性能、通用性和可移植性方面"远优于"ASIC,试图稳定市场情绪。但资本市场显然已经嗅到了变化的气息:在AI芯片这个英伟达统治了十年的领域,谷歌的TPU正在从"内部黑科技"进化成真正具备威胁力的竞争武器。
TPU的诞生并非源于谷歌想要挑战英伟达,而是一次被逼无奈的自救行动。2015年,谷歌内部工程团队发现了一个严重问题:随着深度学习在搜索、广告、翻译等核心业务中的应用快速扩展,如果全面启用神经网络模型,谷歌全球数据中心的电力消耗将暴增十倍以上。
谷歌TPU
即使把市场上所有GPU都买下来,也无法满足需求,更不用说天文数字般的成本。谷歌高层做了一个大胆决定:自己设计一款专门用于深度学习推理的ASIC芯片,目标不是性能最强,而是能效最高、成本最低、可大规模部署。
2016年投入使用的第一代TPU v1主要服务于谷歌翻译等推理任务,证明了ASIC路线的可行性。但真正的转折出现在2017年,当Transformer架构横空出世时,谷歌立刻意识到这种高度规则化、矩阵密度极高的计算模式,简直是为TPU量身定制的。
从TPU v2开始,谷歌不仅开放芯片给云客户,还开始支持训练任务,并构建了XLA编译器、高效Pod架构、液冷系统等全栈能力。到了TPU v4时代,谷歌已经能够把4096颗芯片组成超节点,通过自研的2D/3D环面拓扑网络和光路交换技术OCS,让数千颗加速器像一颗巨型芯片般协同工作,成功训练出PaLM 540B大模型。
2024年发布的TPU v6代号Trillium标志着谷歌战略重心彻底转向推理。随着生成式AI的爆发,推理成本迅速成为全球AI公司最大的单项支出,甚至超过训练成本。v6从架构到指令集全部围绕推理负载重新设计,FP8吞吐量暴涨、片上SRAM容量翻倍、KV缓存访问优化,能效比上一代提升67%。
2025年推出的第七代TPU v7代号Ironwood,则是这一战略的完整体现。Ironwood是TPU历史上第一款专用推理芯片,单芯片FP8算力达到4.6 petaFLOPS,略高于英伟达B200的4.5 petaFLOPS,内存配置192GB HBM3e,带宽7.4 TB/s。
更关键的是,一个Ironwood Pod可集成9216颗芯片,FP8峰值性能超过42.5 exaFLOPS。谷歌在技术文档中披露,在特定FP8负载下,该Pod性能相当于最接近竞品系统的118倍,这不是单芯片的差距而是系统架构与网络拓扑的代际碾压。
表面上看,TPU与英伟达GPU的竞争是性能之争,但内行都知道,真正的战场在成本。所谓"CUDA税",是指英伟达GPU从生产到销售过程中叠加的高额利润。一颗GPU的生产成本可能只有几千美元,但卖给云厂商时价格往往高达数万美元,毛利率超过八成。全球所有训练大模型的科技公司几乎都要支付这项成本,而且无法摆脱。
OpenAI依赖英伟达GPU进行训练和推理,其算力开支已经远超公司总营收,英伟达的定价模式使这些公司无论怎么优化模型,都难以实现规模化商业利润。
谷歌的策略完全不同。谷歌采用自研TPU,整个供应链由谷歌控制,从芯片设计到制造、从网络方案到软件栈再到数据中心布局,全部内部优化。
由于不需要支付英伟达税,谷歌的算力成本结构天生比竞争对手更具优势。根据半导体分析机构SemiAnalysis的测算,从谷歌内部视角看,TPU v7服务器的总拥有成本比英伟达GB200服务器低约44%。即便加上谷歌和芯片供应商博通的利润,Anthropic通过谷歌云使用TPU的成本,仍比直接购买GB200低约30%。
这种成本优势在推理时代尤为致命。当一个企业每年在推理上消耗数千万美元甚至上亿美元时,如果迁移到TPU可以节省三到五成成本,那么迁移几乎是一种不可回避的商业决策。谷歌不仅在内部获得低成本,还将这种成本优势传递给谷歌云的客户,通过TPU服务为客户提供更低价格的推理能力,从而吸引大量模型公司和企业迁移到谷歌平台。
根据行业报告,谷歌TPU v6e在每美元AI性能上比GPU高出4倍,实际部署中成本节省可达65%、吞吐量提升3倍。这些数字不是营销话术,而是真实客户案例的验证结果。
谷歌、英伟达和亚马逊代表了AI芯片市场的三条不同路线。英伟达的路线是通用性和生态锁定,GPU具备海量并行计算单元,能够支持从深度学习到图形渲染再到科学计算等多种负载,而CUDA生态几乎锁死了全行业的开发路径。
一旦模型或框架为CUDA优化,就很难切换到其他芯片架构。这种垄断能力类似于苹果在消费品市场的生态控制。但GPU的缺陷也十分明显:它并非为推理优化,硬件资源在实际推理场景中可能并非最优配置,导致单位能耗效率不如ASIC,且英伟达的定价权极高。
谷歌的路线是专用化和全栈整合。谷歌不追求硬件通用性而是追求Transformer负载的极致效率。TPU的核心是脉动阵列,专门为矩阵乘法设计,使其在深度学习计算中特别高效。
谷歌的核心优势在于全栈整合能力,他们不仅控制芯片,还控制模型、框架、编译器、分布式训练系统与数据中心基础设施,这让谷歌可以做出许多GPU无法实现的系统级优化。例如,Ironwood系统的年可用性达到99.999%,即全年停机时间不到六分钟,这在超大规模AI集群中堪称恐怖,远超基于GPU的训练集群常见水平。
亚马逊则走了第三条路线,其芯片战略出发点是降低AWS的基础设施成本同时减少对英伟达的依赖,因此开发了Trainium和Inferentia。作为云厂商,AWS关注的是规模效应与经济性,而非像谷歌那样构建一个统一的AI算力体系。Trainium的设计更灵活,在不少情况下接近GPU的适配能力,但性能针对训练和推理分别做了优化。亚马逊通过芯片降低内部成本并将节省部分反馈给客户,从而提升AWS的竞争力。
目前来看,英伟达仍然拥有最强大的生态和最广泛的客户基础,GPU在训练市场的统治地位短期内难以被撼动。但谷歌通过十年积累,已经在推理市场构建起一套完全不同的竞争体系。当AI行业的竞争从模型维度转向成本维度,从训练能力转向推理规模,从生态构建转向基础设施整合时,谷歌凭借TPU、全球数据中心布局、代际升级节奏和全栈能力,有望在这一新周期中构建比过去十年更牢固的竞争壁垒。
TPU从一个"不得不做的救命项目"进化成挑战英伟达的核心武器,这个过程证明了在AI时代,单纯依靠硬件性能已经不够,真正的竞争力来自于系统级的效能优化和商业模式的创新。当推理成本成为AI公司最大的支出项时,谁能提供最经济的解决方案,谁就能在下一个十年占据主动。
全球顶流创作者MrBeast最新发布的竞速视频引发热议,将“人类VS未来机器”的话题推向热搜。视频中,巴黎奥运百米冠军、有
据浙江政务服务网信息,备受关注的宇树智能应急机器人产业园项目(一期),已于11月26日完成备案。 11月12日,宁波蓝成应
12月3日,汇添富上证科创板人工智能ETF(589560)收盘跌1.41%,成交额1510.38万元。科创人工智能ETF汇添富(589560)成立于2025年
人物故事:年轻的希望在这支年轻的U16国足中,邝兆镭无疑是最引人注目的球员之一。他的奋斗精神无疑是中国足球未来的希
本文由半导体产业纵横(ID:ICVIEWS)编译自futuremarketinsights2025年至2030年间,美国数据中心CPU的需求预计将稳步增长,从52亿美
2024年10月,当时2008年龄段的U16国足同样在U17亚预赛中面对过不丹、马尔代夫队等弱旅,但当时两战的比分为6比0和9比0。去年
再比如,这100多平米的空间,其实是可以作为飞行甲板来运作的——目前已经批量装备的某型无人舰载直升机,以其小巧的体
光明日报北京11月26日电(记者邓晖)稀土纳米晶是发光材料中的“绝缘宝石”,虽具有巨大的发光潜力,却因自身局限无法
【文/观察者网 张菁娟】11月29日,俄罗斯新罗西斯克附近的里海管道联盟(CPC)石油码头遭到乌克兰无人艇攻击,这个股东涵
选择权重高、收录快的新闻媒体(如百家号、中华网、中国日报网、凤凰网、各地方新闻网)。 ②、点击左上角媒体价格,
炒期货上新浪、实时行情信息全。来源:饲料市场11月11日晚间,邦基科技(603151)公告称,11月11日,公司召开的第二届董事
ICCAD头条:安谋科技发布“AI Arm CHINA”战略
当谷歌开始尝试把自研的 AI 芯片 TPU(Tensor Processing Unit)卖向更广阔的市场,这场原本只发生在云端的“芯片暗战”正在被推
01 可穿戴式无创传感器通过汗液监测是否有炎症迹象加州理工学院的研究人员开发出一种可穿戴、非侵入式传感器,可以监测
11月28日,江苏南京,科创产业园智梦园里,深耕汽车数字化领域的三百云科技工作人员在会议室讨论相关业务。
一大早看卢伟冰晒出了小米17 Pro Max手机的尾巴,本以为是一个小玩笑,没想到接下来就官宣了小米16正式改名为小米17,并且