CoreWeave借助Nvidia B300扩展AI云平台,应对推理需求激增

🤖 AI总结

主题

CoreWeave宣布扩展其AI原生云平台,以加速企业AI从训练到生产部署的进程。

摘要

CoreWeave推出基于Nvidia新硬件的AI云平台及新软件工作流,专注于提升大规模AI推理性能,帮助企业加速AI应用的生产部署与持续优化。

关键信息

  • 1 平台基于Nvidia HGX B300构建,针对大规模AI推理优化。
  • 2 推出与Weights & Biases集成的软件工作流,支持“无环境强化学习”。
  • 3 该举措旨在满足企业AI大规模部署和持续改进的需求。

CoreWeave借助Nvidia B300扩展AI云平台,应对推理需求激增

CoreWeave在Nvidia GTC大会上宣布大幅扩展其AI原生云平台,旨在帮助企业更快地从模型训练转向生产部署,特别专注于下一代智能体AI系统和强化学习工作负载。

该公司宣布基于Nvidia HGX B300平台的基础设施正式发布,同时推出与机器学习实验跟踪平台Weights & Biases共同构建的一套集成开发和监控功能。

这一举措反映了更广泛的市场趋势,即各组织正从大规模训练转向持续模型改进和大规模推理。Moor Insights & Strategy副总裁兼首席分析师Matt Kimball表示:”CoreWeave转向推理——激活AI——是件好事。推理是AI价值得以实现的环节,目前才刚刚起步,规模可能比训练大几个数量级。”

Kimball补充道:”AI的经济影响发生在推理阶段。内存、互连带宽和效率与原始计算能力同等重要。”

HyperFrame Research常驻分析师Stephen Sopko表示,该公司的第一季度研究显示,30%的组织已达到大规模AI部署,64%预计在六个月内实现。”这正是CoreWeave正在定位捕获的需求浪潮,”Sopko说。”我们将会听到很多关于Vera Rubin的消息,但这一公告表明现在就有相应的容量。”

针对AI推理和大规模推理而构建

CoreWeave平台扩展的核心是基于Nvidia HGX B300构建的基础设施,这是使用Nvidia Blackwell架构的最新一代GPU系统的组成部分。该平台针对大规模训练、强化学习和大规模推理等快速演进的工作负载混合而设计。

据该公司介绍,基于B300的系统为AI推理和推理提供更高性能,并扩展内存容量,使团队能够用更少的节点运行大型模型。

每个部署在HGX节点中打包八个GPU,为分布式AI训练和模型服务提供密集并行计算。在节点内,Nvidia NVLink互连技术实现高带宽GPU到GPU通信和内存共享,在训练和推理过程中减少延迟。

服务器通过Nvidia Quantum-X800 InfiniBand网络跨集群连接,在节点间提供超低延迟通信。随着AI模型需要数千个GPU在分布式集群中协同工作,高速互连变得越来越重要。

CoreWeave表示,每个节点提供高达2.1TB的HBM3e内存,使开发人员能够用更少的GPU和更低的通信开销来训练和运行超过1000亿参数的模型。

为管理密集AI集群的热需求,HGX B300服务器使用液体冷却,帮助在重负载下维持峰值性能。

缩小训练与生产之间的差距

除了硬件升级,CoreWeave还展示了简化AI模型精炼和部署的新软件工作流。

来自Weights & Biases的新功能引入了两家公司称之为”无环境强化学习”的方法,使智能体能够直接从生产数据中改进,而不是仅仅依赖仿真环境。

“我喜欢CoreWeave强调让模型从真实用户学习的软件,”Kimball说。”这提高了准确性和效率。”

这种方法允许模型持续从现实世界的使用模式和性能轨迹中学习,可能加速企业AI应用的开发周期。CoreWeave表示,这些工作流可以减少训练周期并降低推理成本,同时保持模型质量。

支持自主和物理AI系统

该公司还重点介绍了针对机器人和实体AI开发的新工具。

通过更新的实验跟踪和多模态监控功能,机器人团队可以在单个工作区内比较训练输出、仿真结果和视频数据。这些工具旨在简化实验并加速物理系统的迭代。

CoreWeave还首次推出移动应用程序,用于实时监控模型训练运行,为工程师提供远程可见性和早期问题检测。

“看到对机器人的重视也很有趣,”Kimball指出。”这个市场的成熟速度比我们想象的要快。”

DCK分析:推理获得动力

该公告反映了AI基础设施的关键拐点:瓶颈不再仅仅是GPU供应,而是在生产中部署和操作AI系统的复杂性。通过将下一代硬件与集成开发和评估工作流相结合,CoreWeave正在为新兴的自主智能体和持续学习系统类别定位其平台,这些系统预计将推动企业AI采用的下一阶段。

随着AI应用投入生产,推理需求正在加速,促使云提供商构建针对持续大规模模型服务而非间歇性训练运行进行优化的基础设施。

Q&A

Q1:CoreWeave的B300平台有什么特殊优势?

A:CoreWeave基于Nvidia HGX B300的平台为AI推理提供更高性能,并扩展内存容量,每个节点提供高达2.1TB的HBM3e内存,使开发人员能够用更少的GPU运行超过1000亿参数的大型模型,同时使用液体冷却系统维持峰值性能。

Q2:什么是”无环境强化学习”方法?

A:”无环境强化学习”是CoreWeave与Weights & Biases合作推出的新功能,它使智能体能够直接从生产数据中学习和改进,而不是仅仅依赖仿真环境,让模型能够持续从现实世界的使用模式中学习。

Q3:为什么说推理比训练更重要?

A:分析师指出,推理是AI价值得以实现的环节,AI的经济影响主要发生在推理阶段。推理市场规模可能比训练大几个数量级,因为随着AI应用投入生产,推理需求正在加速增长。

© 版权声明

相关文章