英伟达推出大规模AI训练和推理平台Dynamo 1.0

🤖 AI总结

主题

英伟达发布开源AI部署平台Dynamo 1.0,旨在优化大规模生成式和智能体推理的经济性与效率。

摘要

英伟达推出开源平台Dynamo 1.0,通过优化GPU资源管理来提升大规模AI推理的效率和经济效益,是其向AI软件生态扩展的关键一步。

关键信息

  • 1 Dynamo是用于大规模AI部署的开源软件平台,专注于生成式和智能体推理。
  • 2 该平台通过智能路由和资源分配提高GPU利用率,以降低推理成本并提升吞吐量。
  • 3 发布旨在将英伟达从硬件供应商转型为AI基础设施软件的核心提供者,并塑造市场标准。

英伟达推出大规模AI训练和推理平台Dynamo 1.0

英伟达公司今日在圣何塞举行的GPU技术大会上宣布推出Dynamo 1.0,这是一个开源平台,英伟达将其定位为大规模AI部署的重要软件层,旨在推动新兴人工智能工厂趋势的发展。

这一发布旨在解决企业AI领域最棘手的问题之一:如何大规模高效运行日益复杂的生成式和智能体工作负载。

英伟达表示,推理的经济性正变得与原始模型性能同样重要。该公司超大规模和高性能计算副总裁Ian Buck称,公司看到了能够管理日益增长的AI复杂性的软件市场正在快速扩展。

他表示:”随着我们向复杂性阶梯上攀升,AI的价值和能力以及每百万Token的美元价值也在提升。像Dynamo这样的软件堆栈为Vera Rubin NVL72上的模型提供了提升,实现了每瓦特10倍的吞吐量,或者说Token成本降至十分之一。”

Vera Rubin NVL72是英伟达在1月份发布的新型机架规模AI超级计算机平台,专为处理大规模AI训练和推理而设计。

像Dynamo这样的平台对英伟达努力拓展业务范围至关重要,使其不仅仅是芯片、服务器和网络设备供应商,更成为编排整个数据中心AI基础设施所需操作软件的提供者。Dynamo可用于大规模生成式和智能体推理,并与众多流行的推理和编排框架集成。

Gartner公司专门研究智能体和AI基础设施、AI云和量子计算的分析师Chirag Dekate表示,开源Dynamo是英伟达”向上扩展护城河”的一个例子。

他说:”推理正在成为一个软件编排问题,因此谁能大规模管理路由、缓存和调度,谁就将塑造AI的经济性。通过开源Dynamo,英伟达正在进行经典的标准化策略:降低采用门槛,吸引生态系统合作伙伴,将其首选的运行时模型转变为市场的默认操作模型。”

智能体AI的崛起给基础设施和软件带来了新的复杂性和需求,因为新模型不仅与人类交互,还以远超人类交互所需速度的方式彼此交互。

英伟达将这些智能体需求称为超越预训练、后训练和测试时间扩展的”第四个扩展定律”。Buck说:”智能体不仅与人类对话,还与其他AI对话的场景,增加了对低延迟和大规模大上下文推理的需求。”

这种转变正在将基础设施需求推向简单聊天机器人工作负载之外。Buck说,智能体模型”需要以15倍的速度交付Token,模型规模要大10倍”。他表示,当前的1000亿参数模型很快将扩展到10万亿参数系统,处理每秒1500个Token。

Gartner的Dekate指出,Dynamo专注于最大化GPU集群的利用率以提高利用效率。他说:”新兴的推理模型、多模态工作负载和智能体系统正在使推理变得更加分布式、延迟敏感和成本敏感。”Dynamo的规划器监控预填充和解码活动并重新分配GPU资源,而智能路由器具备KV缓存感知能力,可以最大限度地减少重新计算。

Dynamo还融入了英伟达今日发布的更广泛的AI智能体软件堆栈。新的智能体工具包是”用于构建、评估和优化更安全、长期运行的自主智能体的开放模型、运行时和蓝图”的组合包,生成式AI软件高级副总裁Kari Briski表示。该工具包包括用于模型推理的英伟达推理微服务,以及用于大规模生产的Dynamo。

Q&A

Q1:Dynamo 1.0是什么?有什么主要功能?

A:Dynamo 1.0是英伟达推出的开源平台,专为大规模AI部署设计。它主要用于生成式和智能体推理,能够与多种流行的推理和编排框架集成,通过智能路由和资源分配来提高GPU利用率,实现更高效的AI工作负载管理。

Q2:为什么英伟达要开源Dynamo平台?

A:开源Dynamo是英伟达的战略布局,目的是降低采用门槛、吸引生态系统合作伙伴,将其运行时模型转变为市场默认标准。这有助于英伟达从硬件供应商转型为AI基础设施软件提供者,在推理经济性日益重要的背景下塑造AI市场格局。

Q3:智能体AI对基础设施有什么新要求?

A:智能体AI带来了”第四个扩展定律”,要求基础设施支持AI之间的高速交互,不仅仅是人机交互。智能体模型需要15倍更快的Token交付速度和10倍更大的模型规模,未来将从1000亿参数扩展到10万亿参数系统,处理每秒1500个Token。

© 版权声明

相关文章