DeepSeek V4发布：效率大幅提升，支持华为昇腾NPU

网易专栏2周前发布 nxnqh

18 0 0

发布时间：2026-04-27 17:04:19

#AI | #DeepSeek V4

来源：网易专栏作者：至顶头条
🔗 查看原文

🤖 AI总结

主题

DeepSeek V4大语言模型的技术突破与性价比优势

摘要

DeepSeek V4发布，凭借混合注意力机制、低精度训练及国产硬件适配，实现推理成本大幅下降，API定价仅为GPT-5.5的十分之一，展现强大性价比。

关键信息

1 DeepSeek V4采用混合注意力机制和FP8/FP4精度，大幅降低推理成本与内存占用。
2 支持华为昇腾NPU平台，验证了国产硬件的推理能力。
3 API定价远低于OpenAI GPT-5.5，性价比极高。

DeepSeek V4发布：效率大幅提升，支持华为昇腾NPU

中国AI明星企业DeepSeek再度推出开放权重大语言模型，声称性能可媲美西方顶尖专有大语言模型。更值得关注的是，新模型大幅降低了推理成本，并新增对华为昇腾系列AI加速器的支持。

DeepSeek V4于近日正式发布，可在Hugging Face等主流模型仓库、官方API及网页服务上下载使用，共提供两种规格。其中较小的版本为拥有2840亿参数的Flash混合专家（MoE）模型，激活参数量为130亿；较大的版本则拥有1.6万亿参数，任意时刻激活参数量为490亿。

V4-Pro在33万亿Token上完成训练，据DeepSeek官方称，该模型在其基准测试集中超越了所有开放权重大语言模型，并可与西方最顶尖的专有模型相抗衡。

当然，这些说法仍需保持审慎态度。尽管DeepSeek凭借V3和R1系列模型建立起良好口碑，让这家中国开发商广为人知，但在标准化测试中表现优异，并不意味着在实际应用中同样出色。

从模型架构来看，DeepSeek V4引入了多项创新设计，据开发者称，这些改进将显著降低模型的服务成本。

首先是推出了规模较小的Flash模型。相较于大模型，Flash模型对基础设施要求更低，能以更低成本提供更流畅的交互体验。这一策略本身并不新鲜，但对DeepSeek而言却是首次在自研模型中正式采用。

更具实质意义的变化在于注意力机制的改进。模型的注意力机制决定了它如何将输入提示转化为键值对，进而生成输出Token。DeepSeek研究团队在随新模型发布的论文中，提出了一种结合压缩稀疏注意力（Compressed Sparse Attention）与重度压缩注意力（Heavy Compressed Attention）的混合注意力机制，旨在降低推理过程中的计算量，并减少用于追踪模型状态的键值缓存（KV Cache）所占用的内存。

KV Cache的压缩效果对V4的效率至关重要——这类缓存体积通常较大，推理服务商往往需要将其卸载至系统内存或闪存以避免冷启动延迟。更高压缩率的KV Cache意味着大规模推理部署所需的内存与存储空间显著减少。

综合以上技术，V4在支持百万Token上下文窗口的同时，内存占用较DeepSeek V3.2减少了9.5至13.7倍。

为进一步压缩内存占用，DeepSeek延续了使用低精度数据类型的传统。DeepSeek V3曾是最早采用FP8精度训练的开放权重模型之一，而V4两款模型均混合使用了FP8与FP4精度，并针对MoE专家权重采用了量化感知训练（Quantization-Aware Training）。FP4相比FP8可将模型权重所需的存储空间减少约一半，是一项显著的节省，前提是能够接受精度上的一定损失。

DeepSeek的架构改进不仅限于推理端。在V4中，开发团队还引入了名为Muon的全新优化器，旨在加速训练收敛并提升训练稳定性。

自研模型适配本土硬件

此次新模型中最引人关注、却着墨不多的一点，是其运行硬件的变化。DeepSeek V3曾深度优化以适配英伟达Hopper架构GPU，而V4已通过验证，可同时运行于英伟达与华为的加速器平台之上。

DeepSeek V4的技术论文仅在文中简短提及，指出该公司已在”英伟达GPU和昇腾NPU平台上验证了其细粒度专家并行（EP）方案”。

需要明确的是，这并不意味着该模型完全由华为硬件训练完成，仅表明DeepSeek已验证华为AI加速器可用于模型推理服务。

DeepSeek有可能采用了英伟达GPU完成预训练，再以华为加速器承担强化学习阶段的任务。强化学习是一种与推理过程相近的后训练步骤，用于向模型传授新技能、行为模式及思维链推理能力。不过，该论文并未对此作出直接说明。

总体而言，推理阶段对新兴芯片厂商的准入门槛较低。此前DeepSeek曾尝试使用华为芯片进行模型训练，但据报道，受芯片质量不稳定、互联速度过慢以及软件栈不成熟等问题影响，该计划受阻，DeepSeek最终重新回归英伟达平台。

此外，V4采用4比特精度数据类型，或令部分人联想到英伟达Blackwell加速器——该产品受出口管制，不得在中国销售。但实际上，这并非必要条件。Hopper GPU虽不支持FP4硬件加速，但仍可以纯权重模式使用该数据类型。这种方式对浮点计算性能无益，却能有效降低训练与推理阶段的内存占用和带宽需求，在众多使用场景中是值得考量的权衡方案。

价格极具竞争力

DeepSeek V4目前处于预览阶段，基础版与指令微调版均可下载或通过API调用。

小参数量的Flash模型API定价为每百万输入Token 0.14美元（非缓存）、每百万输出Token 0.28美元，颇具吸引力。大参数量的Pro模型价格相对较高，分别为每百万输入Token 1.74美元、每百万输出Token 3.48美元，但与西方AI厂商的顶尖模型相比，仍属极低水平。作为参照，OpenAI的GPT-5.5定价为每百万输入Token 5美元、每百万输出Token 30美元。

Q&A

Q1：DeepSeek V4相比V3有哪些核心改进？

A：DeepSeek V4引入了多项关键改进：一是混合注意力机制，结合压缩稀疏注意力与重度压缩注意力，大幅降低推理计算量和KV Cache内存占用，内存使用较V3.2减少9.5至13.7倍；二是同时使用FP8与FP4混度精度，进一步压缩存储需求；三是引入新优化器Muon，提升训练收敛速度与稳定性；四是新增对华为昇腾NPU平台的验证支持。

Q2：DeepSeek V4支持华为昇腾NPU，是否意味着它完全在华为硬件上训练？

A：不是。DeepSeek V4的论文仅说明已在华为昇腾NPU平台上验证了模型的专家并行推理方案，并未表明整个训练过程使用华为硬件完成。有可能预训练仍依赖英伟达GPU，强化学习阶段才引入华为加速器。目前论文未就训练硬件细节作出明确说明。

Q3：DeepSeek V4的API定价和OpenAI相比有什么差距？

A：差距相当显著。DeepSeek V4 Pro版本的API定价为每百万输入Token 1.74美元、每百万输出Token 3.48美元；而OpenAI的GPT-5.5则分别为5美元和30美元。即便是DeepSeek的旗舰Pro模型，其输出Token价格也仅为GPT-5.5的约十分之一，性价比优势突出。

网易专栏 # AI # DeepSeek V4

文章版权归作者所有，未经允许请勿转载。

DeepSeek V4发布：效率大幅提升，支持华为昇腾NPU

🤖 AI总结

主题

摘要

关键信息

MIT科学家构建全球最大奥林匹克级数学题库，向全球免费开放

谷歌Cloud Next大会全力押注智能体AI时代，能否占据主导地位？

相关文章

CoreWeave与Meta签署210亿美元协议，加速AI算力扩张

再融20亿！星海图把具身智能头部门槛抬到了200亿

供应链攻击持续发酵：黑客锁定安全与开发工具

为了不跟龙虾抢电脑用，有人开始造Agent专属的“三无”硬件