DeepSeek V4发布:效率大幅提升,支持华为昇腾NPU

网易专栏2周前发布 nxnqh
18 0 0

🤖 AI总结

主题

DeepSeek V4大语言模型的技术突破与性价比优势

摘要

DeepSeek V4发布,凭借混合注意力机制、低精度训练及国产硬件适配,实现推理成本大幅下降,API定价仅为GPT-5.5的十分之一,展现强大性价比。

关键信息

  • 1 DeepSeek V4采用混合注意力机制和FP8/FP4精度,大幅降低推理成本与内存占用。
  • 2 支持华为昇腾NPU平台,验证了国产硬件的推理能力。
  • 3 API定价远低于OpenAI GPT-5.5,性价比极高。

DeepSeek V4发布:效率大幅提升,支持华为昇腾NPU

中国AI明星企业DeepSeek再度推出开放权重大语言模型,声称性能可媲美西方顶尖专有大语言模型。更值得关注的是,新模型大幅降低了推理成本,并新增对华为昇腾系列AI加速器的支持。

DeepSeek V4于近日正式发布,可在Hugging Face等主流模型仓库、官方API及网页服务上下载使用,共提供两种规格。其中较小的版本为拥有2840亿参数的Flash混合专家(MoE)模型,激活参数量为130亿;较大的版本则拥有1.6万亿参数,任意时刻激活参数量为490亿。

V4-Pro在33万亿Token上完成训练,据DeepSeek官方称,该模型在其基准测试集中超越了所有开放权重大语言模型,并可与西方最顶尖的专有模型相抗衡。

当然,这些说法仍需保持审慎态度。尽管DeepSeek凭借V3和R1系列模型建立起良好口碑,让这家中国开发商广为人知,但在标准化测试中表现优异,并不意味着在实际应用中同样出色。

从模型架构来看,DeepSeek V4引入了多项创新设计,据开发者称,这些改进将显著降低模型的服务成本。

首先是推出了规模较小的Flash模型。相较于大模型,Flash模型对基础设施要求更低,能以更低成本提供更流畅的交互体验。这一策略本身并不新鲜,但对DeepSeek而言却是首次在自研模型中正式采用。

更具实质意义的变化在于注意力机制的改进。模型的注意力机制决定了它如何将输入提示转化为键值对,进而生成输出Token。DeepSeek研究团队在随新模型发布的论文中,提出了一种结合压缩稀疏注意力(Compressed Sparse Attention)与重度压缩注意力(Heavy Compressed Attention)的混合注意力机制,旨在降低推理过程中的计算量,并减少用于追踪模型状态的键值缓存(KV Cache)所占用的内存。

KV Cache的压缩效果对V4的效率至关重要——这类缓存体积通常较大,推理服务商往往需要将其卸载至系统内存或闪存以避免冷启动延迟。更高压缩率的KV Cache意味着大规模推理部署所需的内存与存储空间显著减少。

综合以上技术,V4在支持百万Token上下文窗口的同时,内存占用较DeepSeek V3.2减少了9.5至13.7倍。

为进一步压缩内存占用,DeepSeek延续了使用低精度数据类型的传统。DeepSeek V3曾是最早采用FP8精度训练的开放权重模型之一,而V4两款模型均混合使用了FP8与FP4精度,并针对MoE专家权重采用了量化感知训练(Quantization-Aware Training)。FP4相比FP8可将模型权重所需的存储空间减少约一半,是一项显著的节省,前提是能够接受精度上的一定损失。

DeepSeek的架构改进不仅限于推理端。在V4中,开发团队还引入了名为Muon的全新优化器,旨在加速训练收敛并提升训练稳定性。

自研模型适配本土硬件

此次新模型中最引人关注、却着墨不多的一点,是其运行硬件的变化。DeepSeek V3曾深度优化以适配英伟达Hopper架构GPU,而V4已通过验证,可同时运行于英伟达与华为的加速器平台之上。

DeepSeek V4的技术论文仅在文中简短提及,指出该公司已在”英伟达GPU和昇腾NPU平台上验证了其细粒度专家并行(EP)方案”。

需要明确的是,这并不意味着该模型完全由华为硬件训练完成,仅表明DeepSeek已验证华为AI加速器可用于模型推理服务。

DeepSeek有可能采用了英伟达GPU完成预训练,再以华为加速器承担强化学习阶段的任务。强化学习是一种与推理过程相近的后训练步骤,用于向模型传授新技能、行为模式及思维链推理能力。不过,该论文并未对此作出直接说明。

总体而言,推理阶段对新兴芯片厂商的准入门槛较低。此前DeepSeek曾尝试使用华为芯片进行模型训练,但据报道,受芯片质量不稳定、互联速度过慢以及软件栈不成熟等问题影响,该计划受阻,DeepSeek最终重新回归英伟达平台。

此外,V4采用4比特精度数据类型,或令部分人联想到英伟达Blackwell加速器——该产品受出口管制,不得在中国销售。但实际上,这并非必要条件。Hopper GPU虽不支持FP4硬件加速,但仍可以纯权重模式使用该数据类型。这种方式对浮点计算性能无益,却能有效降低训练与推理阶段的内存占用和带宽需求,在众多使用场景中是值得考量的权衡方案。

价格极具竞争力

DeepSeek V4目前处于预览阶段,基础版与指令微调版均可下载或通过API调用。

小参数量的Flash模型API定价为每百万输入Token 0.14美元(非缓存)、每百万输出Token 0.28美元,颇具吸引力。大参数量的Pro模型价格相对较高,分别为每百万输入Token 1.74美元、每百万输出Token 3.48美元,但与西方AI厂商的顶尖模型相比,仍属极低水平。作为参照,OpenAI的GPT-5.5定价为每百万输入Token 5美元、每百万输出Token 30美元。

Q&A

Q1:DeepSeek V4相比V3有哪些核心改进?

A:DeepSeek V4引入了多项关键改进:一是混合注意力机制,结合压缩稀疏注意力与重度压缩注意力,大幅降低推理计算量和KV Cache内存占用,内存使用较V3.2减少9.5至13.7倍;二是同时使用FP8与FP4混度精度,进一步压缩存储需求;三是引入新优化器Muon,提升训练收敛速度与稳定性;四是新增对华为昇腾NPU平台的验证支持。

Q2:DeepSeek V4支持华为昇腾NPU,是否意味着它完全在华为硬件上训练?

A:不是。DeepSeek V4的论文仅说明已在华为昇腾NPU平台上验证了模型的专家并行推理方案,并未表明整个训练过程使用华为硬件完成。有可能预训练仍依赖英伟达GPU,强化学习阶段才引入华为加速器。目前论文未就训练硬件细节作出明确说明。

Q3:DeepSeek V4的API定价和OpenAI相比有什么差距?

A:差距相当显著。DeepSeek V4 Pro版本的API定价为每百万输入Token 1.74美元、每百万输出Token 3.48美元;而OpenAI的GPT-5.5则分别为5美元和30美元。即便是DeepSeek的旗舰Pro模型,其输出Token价格也仅为GPT-5.5的约十分之一,性价比优势突出。

© 版权声明

相关文章