🤖 AI总结
主题
谷歌正式发布第八代TPU芯片,分别专为训练和推理优化。
摘要
谷歌发布第八代TPU芯片8t和8i,分别专为训练和推理优化,性能与内存大幅提升,支持大规模AI模型部署。
关键信息
- 1 谷歌发布TPU 8t和8i两款芯片
- 2 TPU 8t专为训练设计,性能提升近3倍
- 3 TPU 8i专为推理优化,内存容量大幅提升
![]()
谷歌于本周二正式发布了两款各有侧重的第八代TPU芯片——一款专为训练设计,另一款专为推理优化,重新采用分体式芯片策略,以应对云计算厂商在AI硬件领域对性能与成本的差异化需求。
谷歌此前已有过TPU分体设计的尝试,第五代的V5p与V5e芯片便是典型案例,但此后的Trillium和Ironwood等系列基本回归了单一设计路线。
HFS Research分析师Phil Fersht认为,此次两款新芯片的分体设计,是谷歌将硬件与企业AI生命周期不同阶段更紧密对齐的战略举措,有望在生产环境中提升资源利用率和成本效益。
“训练与推理在经济模型、内存行为、网络需求和采购模式上的差异日益显著。客户越来越希望在模型生命周期的每个阶段都能获得最合适的性价比,而不是一款通用加速器打天下。”Fersht表示。
Forrester首席分析师Charlie Dai指出,从实际应用角度来看,能够在两款TPU之间自由选择,可以帮助企业避免将训练级别的高成本芯片用于推理密集型任务。
TrendForce分析师Fion Chiu也持相同观点,她认为成本更具优势的8i芯片将帮助企业以更低的价格部署大型模型。
Dai还补充道,对于OpenAI和Anthropic等模型提供商而言,这种芯片选择机制能够更清晰地区分训练集群与服务集群,同时保留通用工具和代码路径的复用能力,从而降低总体成本、提升集群效率,并简化模型生命周期的过渡流程。
HyperFRAME Research分析师Stephen Sopko指出,谷歌并非唯一走分体设计路线的芯片厂商,AWS同样拥有Trainium和Inferentia两款面向不同AI工作负载的独立芯片。
两款芯片的技术优势
尽管分体设计折射出算力经济学的变迁,但这两款芯片相较于前代Ironwood在技术层面也各有突破。
谷歌表示,专注训练的TPU 8t相较Ironwood,每个Pod的计算性能提升近3倍,支持更大规模的超级Pod,芯片间带宽也翻了一番。
具体而言,Ironwood在9216芯片Pod规模下可提供42.5艾次浮点运算,而TPU 8t在9600芯片规模下可扩展至121艾次浮点运算;双向扩展带宽提升至每芯片19.2 Tbps,是原来的两倍;跨机架扩展网络带宽也提升至400 Gbps,增长四倍。
Omdia首席分析师Alexander Harrowell表示,性能与机架间带宽的大幅提升,将支持比Ironwood更大规模模型的训练,并缩短训练时长。
相比之下,专注推理的TPU 8i在设计理念上与Ironwood有更大的转变——内存容量至少是后者的三倍。
TPU 8i配备了288GB高带宽内存与384MB片上SRAM。Harrowell指出,这使TPU的内存规模向领先GPU靠拢。他还表示,更大的片上SRAM有助于将活跃模型数据保持在更靠近处理器的位置,从而降低推理延迟,在模型规模和复杂度持续增长的背景下尤为重要。
Sopko认为,8i的架构调整反映出业界正逐步转向混合专家模型(MoE)和长上下文模型,这类模型未来还将继续扩大规模。
“万亿参数模型和百万Token上下文窗口在推理服务期间需要常驻内存,这就要求更大的内存容量和更大规模的Pod。”Sopko说道。
与Ironwood的256芯片Pod规模和每Pod 1.2艾次浮点运算相比,TPU 8i的Pod规模可扩展至1152芯片,每Pod算力达11.6艾次浮点运算。
此外,谷歌表示,两款新芯片相较Ironwood的系统效率也有所提升,每瓦性能提升2倍,并与谷歌基于Arm架构的Axion CPU主机实现了更紧密的集成。
谷歌还补充称,TPU 8t和8i将于今年晚些时候作为谷歌AI超级计算机平台的组成部分正式对外开放。
Q&A
Q1:谷歌TPU 8t和8i分别适合哪类AI任务?
A:TPU 8t专为模型训练设计,相较前代Ironwood提供近3倍计算性能和更高的芯片间带宽,适合大规模模型训练任务;TPU 8i则专为推理优化,配备288GB高带宽内存和更大片上SRAM,适合在生产环境中高效运行大型模型,两者分工明确,覆盖AI生命周期的不同阶段。
Q2:谷歌为什么要重新采用分体式TPU策略?
A:训练和推理在经济模型、内存需求、网络带宽和采购模式上差异越来越大,单一芯片难以兼顾两者的性价比。分体设计让企业可以按需选择,避免将高成本的训练级芯片用于推理任务,从而降低整体运营成本,提升资源利用率。
Q3:TPU 8i在内存方面有哪些具体提升?
A:TPU 8i搭载288GB高带宽内存和384MB片上SRAM,内存容量是Ironwood的至少三倍,整体规模已接近主流高端GPU。更大的片上SRAM可以让活跃模型数据更靠近处理器,有效降低推理延迟,对混合专家模型(MoE)和长上下文模型的服务尤为重要。