GTC 2026 | 四机互联,DGX Spark接住企业级Agent落地

网易专栏3周前发布 nxnqh
10 0 0

🤖 AI总结

主题

分析AI算力从云端向边缘端侧转移的趋势,并重点介绍NVIDIA DGX Spark如何满足企业级AI智能体(Agent)的本地化部署需求。

摘要

为应对AI智能体带来的高并发、长上下文和隐私安全挑战,NVIDIA推出DGX Spark桌面算力设备,结合NemoClaw软件,助力企业实现高效、安全、经济的本地AI部署。

关键信息

  • 1 AI智能体(如OpenClaw)的兴起推动算力需求向低延迟、高隐私的本地端转移。
  • 2 NVIDIA DGX Spark是一款桌面级AI算力设备,具备高能效、大统一内存和可扩展集群能力。
  • 3 配套的NemoClaw软件栈为企业AI智能体提供了安全沙箱和成本可控的本地部署方案。

作者:毛烁

在自动驾驶领域,Tesla将大量AI推理能力部署在车端本地;在工业场景中,Siemens等企业把模型运行在工厂边缘服务器中;在终端设备上,Apple也在持续强化设备端AI计算能力。

事实上,当下的AI算力的部署,正从过去以数据中心为核心的“云端集中式”,逐步向边缘与桌面侧延伸,并开始进入企业的日常办公环境。

01 OpenClaw点燃了端侧算力 DGX Spark卡位新入口

这背后的原因,与AI的应用形态的变化直接相关。最近,以OpenClaw为代表的“自主智能体(Autonomous Agents)”编排框架的兴起,开始跨越云端大模型的经济学与安全边界。

过去两年,绝大多数对大语言模型(LLM)的调用还停留在“线性交互(Linear Processes)”阶段。人类输入一段提示词(Prompt),模型在云端完成一次前向传播(Forward Pass),生成文本后释放算力。在这种模式下,系统的吞吐瓶颈在于人类的打字和阅读速度,Token 的消耗频率较低且可控。

但是,最近OpenClaw的爆火,推动了用于长周期、自进化的Agent的层编排框架大量落地,大模型也开始从“被动问答器”升维成了整个软件系统的“中央处理器”。

随之,当AI演变成了需要“7 X 24小时”的全天候挂机运行、自主规划执行任务的“数字员工”,而AI系统的特征也发生了三个变化:

第一,是KV Cache与上下文窗口的膨胀。在OpenClaw的运行机制中,Agent 并不是单次输出。为了完成复杂指令(如“排查并修复这段核心业务代码的内存泄漏”),Agent 需要在后台启动高频的“规划-执行-观察(ReAct)”闭环,并反复拉取庞大的本地代码库,自主编写测试用例,阅读编译器的报错日志,同时结合历史对话不断进行自我反思(Self-reflection)和修正。在这一过程中,往往会产生大量的上下文堆叠,动辄就需要填满百万Token 级别的上下文窗口。

另外,如果用户依赖云端 API,不仅要承受海量上下文(Context)在公有云中双向传输带来的巨大延迟,还会因为反复向云端传递冗长的历史上下文,而产生极其高昂的Opex运营支出(API调用成本)

第二,是并发推理请求的高昂价格。我们知道,像OpenClaw框架搭载自主智能体,可以长时间自动工作。因为OpenClaw这类框架支持多智能体协同(Multi-agent),Agent会拆解任务并Fork出多个子Agent并发执行。

如果把如此规模的推理任务全部放在云端,并按照API的Token用量计费,整体成本会迅速攀升。以GPT-5.4 为例,其计费大致为:输入.5/100万Tokens,输出/100万Tokens。在高并发、长上下文的企业场景下,Token消耗会被快速放大,最终的推理成本将会非常昂贵。

第三,是系统级执行的“物理隔离”。对用户来说,最核心的痛点在于执行权限(Execution & Escalation)。由于“自主智能体”会被赋予调用本地工具、执行CLI命令行,读写本地文件系统等一系列高权限的能力。而如果让云端模型直接驱动这些操作,就意味着用户需要把内部数据库(核心代码仓库)的访问权限暴露给公有云环境。而一旦模型出现幻觉,或遭遇Prompt Injection(提示词注入)攻击,Agent就将触发越权执行,造成严重的数据泄露风险。

因此,在“自主智能体(Agent)”时代,企业所需要的,不再只是单一形态的云端算力,更需要本地端的算力体系。只有当算力能够在数据中心、企业机房乃至桌面端之间灵活分布时,AI才能在不同场景中实现低延迟、高隐私和高效率的运行。

但是,当企业在评估企业级Agentic AI(智能体AI)的本地化部署时,经常会陷入一个硬件选型的“死胡同”。传统的PC工作站算力太弱、显存带宽太窄,根本无法支撑千亿参数模型的全天候常驻运行;而直接采购企业级机架式服务器(Rack Servers),又面临着供电改造、精密空调散热、机房噪音以及高昂的部署门槛等一系列“重资产”难题。

基于这一定位,NVIDIA 去年发布的NVIDIA DGX Spark,正是这一“桌面数据中心(Desktop Data Center)”理念的具体落地。其既避免了企业级机房部署的高门槛,又突破了传统 PC工作站在显存容量、带宽和 AI 计算能力上的限制,使企业能够在本地环境中长期运行和调度大模型与AI Agent。

在今年的GTC 2026上,NVIDIA DGX Spark也迎来了一系列更新。

GTC 2026 | 四机互联,DGX Spark接住企业级Agent落地

02 128G统一内存完美承接“自主智能体”

在讨论更新之前,有必要先看清NVIDIA DGX Spark 本身的硬件基础。因为诸多能力,实际上在其架构设计之初就已经决定了。

NVIDIA DGX Spark搭载的是NVIDIA Blackwell架构Tensor Core的GB10 Grace Blackwell超级芯片。

这颗芯片自从NVIDIA DGX Spark发布开始,就能感觉到,NVIDIA释放了一个非常明确的信号——NVIDIA开始把原本集中在数据中心服务器的大模型推理能力,下放为能够部署在普通办公环境中的算力节点。

这一变化首先体现在能效上。NVIDIA DGX Spark的典型功耗约为140W,配套电源适配器的额定上限为240W。放在传统AI基础设施的参照系里,这组数字很突出。过去,承载120B级模型的本地推理,通常需要多卡服务器或HGX级平台,整机功耗往往达到千瓦级。尽管NVIDIA DGX Spark还谈不上替代数据中心,但它已经显示出新的方向,在接近高端移动工作站的功耗范围内,提供足以支撑大模型常驻与 Agent工作流运行的本地算力。

这一能力提升,核心来自底层架构的重新组合。Grace CPU与 Blackwell GPU 之间的高速互联,以及其128G的统一内存架构,使CPU与GPU 不再像异构计算平台那样依赖高成本的数据往返,更适合处理大模型推理过程中频繁发生的权重读取、状态维护与上下文切换。

这也是为什么,在实际的Agent推理场景中,决定体验的因素往往不只是峰值算力。进入长上下文、多轮交互和工具调用更加密集的任务后,模型权重装载效率、KV Cache 占用以及内存带宽压力,往往比理论的FLOPs更早触及系统瓶颈。

另外,NVIDIA DGX Spark原生支持NVFP4的MOE模型,4位量化的精度降低了模型权重的存储开销,也减少了推理过程中的带宽占用,使系统在相同功耗与内存条件下,可以容纳更大的模型工作集,并提升整体吞吐效率。

放在Agent中,当一个Agent在后台拉取完整的GitHub项目并进行全局代码分析或漏洞扫描时,NVIDIA DGX Spark不必像传统设备那样等待上下文逐步处理,而是能够并发处理这些超长Prompt,实现稳定的流式响应(Fluid Interactions)。

当统一内存、高速互联与NVFP4 这类压缩技术叠加在一起,NVIDIA DGX Spark就具备整体性的关键能力。这就是在单机或小规模集群内,本地容纳过去更依赖数据中心部署的模型权重和更大规模的KV Cache。

03 突破Scale-out DGX Spark解锁“四机互联”

如果说单台NVIDIA DGX Spark是强悍的边缘推理节点,那么本次GTC上关于NVIDIA DGX Spark最让人感到兴奋的更新,莫过于其突破性的Scale-out(横向扩展)集群能力。

在最初发布时,NVIDIA DGX Spark初始配置仅支持通过ConnectX-7的线缆直接将两台设备互联。但这一次,NVIDIA通过全新的软件版本与底层固件更新,彻底解锁了NVIDIA DGX Spark的集群“封印”,将其变成了一个真正意义上的“桌面级数据中心”。关于NVIDIA DGX Spark的集群拓扑演进,我们可以将其拆分为两个层级:

第一层是“三节点直连(3-Node Direct Mesh)”。

在最新的更新配置中,开发者可以通过ConnectX-7线缆,将3台NVIDIA DGX Spark串连在一起,形成小型三节点互联集群。

在这种“三角直连”拓扑下,节点之间不需要先进入交换机再转发,而是由ConnectX-7直接完成点对点通信,链路更短,转发层级更少,消息往返时延也更低、更稳定。

对于大模型训练或推理中的Tensor Parallelism来说,这一点尤其重要,因为这类并行方式会频繁触发跨节点的激活值、参数分片和中间结果同步。一旦互联延迟偏高,GPU就会在通信阶段等待,整体算力利用率也会随之下降。ConnectX-7的价值就在这里,它不仅“网速快”,还能把高带宽、低时延、DMA/RDMA能力,以及面向GPU集群的通信卸载能力结合在一起,使这种无交换机的小规模Mesh,依然能支撑高频率的数据交换。

对中小型开发团队来说,这种三角直连拓扑的方式优势很明显,能省掉独立高速交换机的采购和运维成本,同时把3台设备的显存池和算力资源整合起来,让原本单机放不下的模型可以通过张量切分部署到这个微型集群中。

第二层基于以太网的“四节点全互联集群”。NVIDIA DGX Spark现在支持最多4台设备通过以太网交换机组建统一配置的集群。请注意,这里的以太网连接并不是普通的局域网,而是单端口200Gbps高速以太网。

从场景看,这意味着如果用户有四台NVIDIA DGX Spark,并配以一台高吞吐的200GbE交换机,他就将获得一个物理上解耦、但逻辑上完全统一的超级算力集群。

如果把场景换到Agent框架下的(如OpenClaw、NemoClaw)调度任务时,4节点集群不仅可以容纳超大参数量的单一模型,更可以顺滑实现“模型并行+并发请求处理”。比如,节点A负责处理Agent的长期记忆检索,节点B和C运行核心的大脑模型进行复杂推理,节点D则专门负责小型模型的高频工具调用验证。

这种能力,让NVIDIA DGX Spark彻底脱离了“个人电脑”的范畴,成为真正的企业级基础设施。

04 NemoClaw让Agent安全进入企业 原生支持NVIDIA DGX Spark

算力只是“肉体”,真正让 NVIDIA DGX Spark 在Agent时代具备“灵魂”的,是与其深度绑定的软件栈。

就像前文提到的,Agent一旦具备执行能力,就会引入两个核心风险:越权操作与隐私泄露。为了解决这一问题,NVIDIA 推出了开源软件栈 NVIDIA NemoClaw,其原生适配NVIDIA DGX Spark。

在当前开源Agent生态中,OpenClaw已经成为现象级的Agent编排框架。而NemoClaw可以理解为NVIDIA向这一生态提供的企业级增强版本。

在DGX Spark上,相比OpenClaw,NemoClaw的部署过程相被极大简化,只需执行一条命令(Single Command),系统便会自动完成整套环境安装——包括OpenClaw框架、常驻的Nemotron系列大模型,以及最关键的安全组件NVIDIA OpenShell。

需要强调的是,OpenShell是Agent安全架构中的关键一步。

作为 NVIDIA Agent Toolkit的核心组件,OpenShell在Agent与底层操作系统之间增加了一层独立的基础设施层。这意味着,运行在NVIDIA DGX Spark上的每一个Agent,都不再拥有直接访问操作系统的权限,而是被限制在OpenShell提供的安全沙箱中运行。

这使企业能够对Agent的行为进行清晰而可控的治理。具体体现在三方面:

第一是进程隔离。OpenShell会对Agent生成的每一个子进程进行隔离。即使某个子Agent因幻觉或恶意提示而出现异常,也只会在自身沙箱中失效,不会影响主系统,更不会污染本地文件环境。

第二是策略化网络边界。开发者可以通过策略规则精确定义Agent的网络访问权限。例如只允许访问企业内部特定IP段的数据仓库,同时完全阻断外网访问,从而避免敏感数据外泄。

第三是智能隐私路由(Privacy Router)。这是OpenShell中极具价值的一项设计。当Agent执行任务时,隐私路由器会动态判断数据敏感度。高敏感数据(如企业代码、专有工作流)会被强制保留在本地,由NVIDIA DGX Spark上的Nemotron模型完成推理处理;普通常识性问题,则可以被路由到云端API以获得更强的通用能力。

在NemoClaw + OpenShell的协同下,NVIDIA DGX Spark进一步为企业明确了Agent在内部系统中的运行方式。

而这套架构,本质上是在为“永远在线”的企业级AI系统,建立的一套可治理的基础设施。

05 从按Token付费到本地“买断”,DGX Spark助企业重算“经济账”

从企业应用角度看, NVIDIA DGX Spark本质上也正在改变企业使用AI算力的经济模型。

在传统云端大模型时代,企业获取算力更像是“计件工资”——通过API调用模型,并按消耗的Token数量付费。在早期的线性交互场景中,这种模式尚可接受。但进入Agent时代后,情况发生了变化。

当企业部署具备“长周期思考(Long-thinking)”能力的自主Agent时,如果这些计算全部依赖云端API,即使模型价格较低,长期累积的Token费用(OpEx)也会变得十分高昂且难以控制。

而拥有一台NVIDIA DGX Spark,就相当于买断了一台可以24小时持续生成Token的机器。”

当企业在NVIDIA DGX Spark本地部署模型后,原本持续增长的运营支出(OpEx)就转化为一次性的资本支出(CapEx)。运行Nemotron 120B、Mistral Small、DeepSeek V3、Qwen 3等开源模型的每一次推理产生的Token,其边际成本都接近于零。

从企业级IT架构角度看,DGX Spark的另一层意义在于统一环境。其实,企业最担心的是AI开发环境与数据中心、服务器的部署环境不一致,导致系统需要重新优化架构。为此,NVIDIA将完整AI软件栈直接预装在 NVIDIA DGX Spark上,包括 CUDA、Docker、Anaconda、vLLM、Ollama 等常用工具链。

同时,DGX Spark还获得了NVIDIA AI Enterprise的企业级支持,使IT部门可以像管理数据中心服务器一样统一部署和管理设备。

这表明,企业可以在DGX Spark上完成Agent的开发和验证,再将同一环境直接迁移到数据中心的大规模GPU集群运行,实现真正的——在工位创造智能,在数据中心释放智能。

06 写在最后

当AI从云端被调用的模型,演变为能够持续感知、持续规划、持续执行的系统性智能体,算力的存在方式也会随之改变。随着Agent进入真实业务流程,算力开始重新贴近数据、权限、执行现场。

面对自主智能体(Agent)带来的高并发、长上下文、隐私安全、巨额Token成本等痛点,NVIDIA用GB10的算力密度、200Gbps CX7的网络拓扑,以及NemoClaw的软件护城河,开启了新的蓝海市场。

凭借完整的算力体系、低功耗的设计,以及能够随业务规模逐步扩展的部署方式,NVIDIA DGX Spark甚至可以被视为“微缩版的AI 工厂”。对于希望将 Agentic AI深度融入业务流程、同时又对公有云数据安全和API成本有所顾虑的企业来说,在本地部署由多台NVIDIA DGX Spark组成的小型算力集群,正在成为越来越现实的选择。

© 版权声明

相关文章