AI智能体时代：软件工具亟需根本性重新设计

网易专栏2个月前发布 nxnqh

42 0 0

发布时间：2026-03-31 18:02:06

#AI | #软件工具

来源：网易专栏作者：至顶头条
🔗 查看原文

🤖 AI总结

主题

关于AI智能体高速发展对传统软件工具提出根本性重新设计需求的讨论。

摘要

AI智能体的高速发展要求软件工具进行根本性重新设计，以克服性能瓶颈和能耗问题，并推动AI向自主研发和设计演进。

关键信息

1 Google和英伟达专家指出，传统软件工具（如编译器）的延迟在AI智能体以机器速度工作时将成为巨大瓶颈。
2 英伟达通过优化通信延迟、3D堆叠技术和稀疏性计算来提升AI推理速度并降低能耗。
3 AI正被用于自主研发（如神经架构搜索）和辅助芯片设计，预示着向自主智能体系统的演进。

AI智能体时代：软件工具亟需根本性重新设计

当前的软件工具——从编译器到生产力应用程序——需要进行根本性的重新设计，以跟上以机器速度工作的人工智能智能体的步伐，Google和英伟达的首席科学家表示。

在最近于圣何塞举行的英伟达GTC 2026会议上，Google首席科学家Jeff Dean指出，虽然人类开发人员很少会为C编译器的启动时间感到困扰，但在智能体运行速度远超人类的世界中，传统工具将导致巨大的性能延迟。

Dean表示，编程工具已经在经历这种转变，商业应用程序也必须跟上。这将使智能体能够操作电子表格和文档以程序化方式提取信息。在与英伟达首席科学家Bill Dally就推进AI下一个前沿的广泛对话中，他解释了这一观点。

这次讨论为Google和英伟达的发展路线图提供了珍贵的洞察，展示了从提示-等待式AI向具备自我纠正、谈判甚至设计自己后继者能力的智能体系统的进步。

自主研发

对于Google来说，推进AI的下一个前沿意味着赋能模型作为自主的研发实验室。

当Dally询问Dean行业距离能够实验、整理数据并训练下一版本自己的AI模型还有多远时，虽然Dean承认这种能力”还不完全成熟”，但他指出了神经架构搜索的出现，这允许用户自动化神经网络的设计。

“你可以用自然语言指定研究空间，比如’请探索有趣的新蒸馏算法，并尝试使用我们目前没有使用的信息’，”Dean说。”它会去执行这些实验。这基本上是研究和生产力的超强力倍增器。”

实现这一目标需要模型突破训练限制。模型不是一次性在整个互联网数据上进行预训练，而是可以在某些环境中采取行动或预测答案，然后再回到学习状态，这将显著提高学习效率，Dean补充道。

光速推理

随着推理预计将占据大部分AI工作负载，英伟达正在积极针对通信延迟进行优化，以赋予AI智能体无需暂停就能”思考”的能力。

“当你深入到曲线的右侧，真正针对延迟进行优化时，事实证明大部分延迟都来自通信，”Dally说。”在英伟达，我们总是提到光速。”

为了减少对数字信号处理和错误纠正的需求，Dally透露英伟达正在试验简化的路由器架构，牺牲带宽——从每秒400千兆比特降至200千兆比特——以换取延迟改善。目标是将路由器延迟降至50纳秒以下。

“通过这样做，我可以看到我们以每秒1万到2万个Token的速度运行相对较大的模型，”他说。

不要移动数据

由于AI消耗大量能源，Dally提供了一个直接的解决方案来减少能源消耗：”不要移动数据。人们在笑，但我是认真的。这绝对是你必须要做的。”

Dally解释说，对低精度NVFP4操作进行乘加计算只消耗10飞焦耳的能量。然而，从外部内存拉取必要数据消耗的能量大约是这个数量的1000倍。

为了解决这个问题，英伟达正在探索先进的3D堆叠技术，物理融合内存和计算。”读取DRAM使用的大部分能量实际上不是读取DRAM本身——而是将比特从读取DRAM的位置移动到GPU引脚所在的位置，”Dally说。

“通过将DRAM直接堆叠在执行计算的GPU之上，我们可以获得一个数量级更多的带宽，同时每比特消耗更少的能量。这最终是相同的功率，但性能要高得多。”

除了硬件创新，驯服AI功耗危机还需要算法效率的大幅改进。”如果你能以更少的工作获得相同的精度，这也会减少能源消耗，”他补充道。

Dally强调了稀疏性——跳过对模型最终输出影响不大的数学参数计算的技术——作为功耗降低的巨大机会。英伟达在其Ampere架构中引入了二比一结构化稀疏性，当前的混合专家模型使用粗粒度稀疏性形式来节省计算。

然而，Dally警告说，追求更高级别的稀疏性会破坏使GPU如此高效的高度规则、可预测的计算模式。”当你破坏这种模式时，你需要更多的控制和数据路由来处理不规则性，”他说。

AI构建自己的基础设施

这种智能体的未来已经在英伟达和Google自己的工程团队中成型，AI正在设计下一代芯片。

Dean指出了Google在芯片设计中使用AI进行布局和布线的成功——引用其备受赞誉的AlphaChip研究——而Dally详细阐述了英伟达在其设计管道中使用AI的情况。

英伟达最成功的内部工具之一是NVCell，这是一个强化学习程序。每次公司转向新的半导体工艺时，工程师必须移植多达3000个单元的标准单元库。

“过去需要8人团队花费约10个月，”Dally说。”我们开发了一个基于强化学习的程序，结果实际上比人类设计更好。”

除了物理芯片布局，英伟达还部署了一个名为ChipNeMo的定制大语言模型来提升工程生产力。

ChipNeMo在英伟达专有硬件设计文档上训练，作为初级工程师的导师，节省了资深设计师解释特定芯片组件基本功能的时间。它还可以总结错误报告并自动将其路由到合适的设计师进行解决。

Dally希望AI最终能够自动化芯片开发中最耗时的部分。”我很希望能够简单地说，’给我设计一个新的GPU’，然后我去滑雪几天，回来时就完成了，”他说，尽管他承认距离那个现实还很遥远。

即使那一天到来，Dally预期AI芯片设计师也会依赖一个主智能体来编排专门的子智能体，这些智能体相互协商来确定架构，复制人类工程师今天举行的会议。

Q&A

Q1：为什么传统软件工具无法适应AI智能体的工作速度？

A：因为AI智能体运行速度远超人类，而传统工具如编译器、生产力应用程序的启动时间和响应延迟对人类来说不是问题，但会在智能体高速操作时造成巨大的性能瓶颈。因此需要根本性重新设计来匹配机器速度。

Q2：AI模型如何实现自主研发能力？

A：通过神经架构搜索技术，模型可以用自然语言指定研究空间，自动进行实验、整理数据并训练下一版本。模型需要突破传统训练限制，在环境中采取行动或预测答案后再回到学习状态，显著提高学习效率。

Q3：英伟达如何解决AI计算中的能耗问题？

A：主要策略是”不要移动数据”，因为数据移动消耗的能量是计算本身的1000倍。英伟达通过3D堆叠技术将内存直接堆叠在GPU之上，减少数据移动距离，同时探索稀疏性技术跳过不重要的计算来降低能耗。

网易专栏 # AI # 软件工具

文章版权归作者所有，未经允许请勿转载。

AI智能体时代：软件工具亟需根本性重新设计

🤖 AI总结

主题

摘要

关键信息

微软推出Copilot Cowork加速智能体自动化处理复杂工作流

Claw智能体：从AI生成到AI执行的新变革

相关文章

1年暴涨8倍！借力AI，存储大厂美光市值突破 1 万亿美元

DeepSeek V4最大的遗憾

不是技术栈的问题，而是组织架构出了问题

跨维智能DexWorldModel斩获榜首，世界模型考场在机器人执行里

AI智能体时代：软件工具亟需根本性重新设计

🤖 AI总结

主题

摘要

关键信息

微软推出Copilot Cowork加速智能体自动化处理复杂工作流

Claw智能体：从AI生成到AI执行的新变革

相关文章

1年暴涨8倍！ 借力AI，存储大厂美光市值突破 1 万亿美元

DeepSeek V4最大的遗憾

不是技术栈的问题，而是组织架构出了问题

跨维智能DexWorldModel斩获榜首，世界模型考场在机器人执行里

1年暴涨8倍！借力AI，存储大厂美光市值突破 1 万亿美元