🤖 AI总结
主题
关于AI智能体高速发展对传统软件工具提出根本性重新设计需求的讨论。
摘要
AI智能体的高速发展要求软件工具进行根本性重新设计,以克服性能瓶颈和能耗问题,并推动AI向自主研发和设计演进。
关键信息
- 1 Google和英伟达专家指出,传统软件工具(如编译器)的延迟在AI智能体以机器速度工作时将成为巨大瓶颈。
- 2 英伟达通过优化通信延迟、3D堆叠技术和稀疏性计算来提升AI推理速度并降低能耗。
- 3 AI正被用于自主研发(如神经架构搜索)和辅助芯片设计,预示着向自主智能体系统的演进。
![]()
当前的软件工具——从编译器到生产力应用程序——需要进行根本性的重新设计,以跟上以机器速度工作的人工智能智能体的步伐,Google和英伟达的首席科学家表示。
在最近于圣何塞举行的英伟达GTC 2026会议上,Google首席科学家Jeff Dean指出,虽然人类开发人员很少会为C编译器的启动时间感到困扰,但在智能体运行速度远超人类的世界中,传统工具将导致巨大的性能延迟。
Dean表示,编程工具已经在经历这种转变,商业应用程序也必须跟上。这将使智能体能够操作电子表格和文档以程序化方式提取信息。在与英伟达首席科学家Bill Dally就推进AI下一个前沿的广泛对话中,他解释了这一观点。
这次讨论为Google和英伟达的发展路线图提供了珍贵的洞察,展示了从提示-等待式AI向具备自我纠正、谈判甚至设计自己后继者能力的智能体系统的进步。
自主研发
对于Google来说,推进AI的下一个前沿意味着赋能模型作为自主的研发实验室。
当Dally询问Dean行业距离能够实验、整理数据并训练下一版本自己的AI模型还有多远时,虽然Dean承认这种能力”还不完全成熟”,但他指出了神经架构搜索的出现,这允许用户自动化神经网络的设计。
“你可以用自然语言指定研究空间,比如’请探索有趣的新蒸馏算法,并尝试使用我们目前没有使用的信息’,”Dean说。”它会去执行这些实验。这基本上是研究和生产力的超强力倍增器。”
实现这一目标需要模型突破训练限制。模型不是一次性在整个互联网数据上进行预训练,而是可以在某些环境中采取行动或预测答案,然后再回到学习状态,这将显著提高学习效率,Dean补充道。
光速推理
随着推理预计将占据大部分AI工作负载,英伟达正在积极针对通信延迟进行优化,以赋予AI智能体无需暂停就能”思考”的能力。
“当你深入到曲线的右侧,真正针对延迟进行优化时,事实证明大部分延迟都来自通信,”Dally说。”在英伟达,我们总是提到光速。”
为了减少对数字信号处理和错误纠正的需求,Dally透露英伟达正在试验简化的路由器架构,牺牲带宽——从每秒400千兆比特降至200千兆比特——以换取延迟改善。目标是将路由器延迟降至50纳秒以下。
“通过这样做,我可以看到我们以每秒1万到2万个Token的速度运行相对较大的模型,”他说。
不要移动数据
由于AI消耗大量能源,Dally提供了一个直接的解决方案来减少能源消耗:”不要移动数据。人们在笑,但我是认真的。这绝对是你必须要做的。”
Dally解释说,对低精度NVFP4操作进行乘加计算只消耗10飞焦耳的能量。然而,从外部内存拉取必要数据消耗的能量大约是这个数量的1000倍。
为了解决这个问题,英伟达正在探索先进的3D堆叠技术,物理融合内存和计算。”读取DRAM使用的大部分能量实际上不是读取DRAM本身——而是将比特从读取DRAM的位置移动到GPU引脚所在的位置,”Dally说。
“通过将DRAM直接堆叠在执行计算的GPU之上,我们可以获得一个数量级更多的带宽,同时每比特消耗更少的能量。这最终是相同的功率,但性能要高得多。”
除了硬件创新,驯服AI功耗危机还需要算法效率的大幅改进。”如果你能以更少的工作获得相同的精度,这也会减少能源消耗,”他补充道。
Dally强调了稀疏性——跳过对模型最终输出影响不大的数学参数计算的技术——作为功耗降低的巨大机会。英伟达在其Ampere架构中引入了二比一结构化稀疏性,当前的混合专家模型使用粗粒度稀疏性形式来节省计算。
然而,Dally警告说,追求更高级别的稀疏性会破坏使GPU如此高效的高度规则、可预测的计算模式。”当你破坏这种模式时,你需要更多的控制和数据路由来处理不规则性,”他说。
AI构建自己的基础设施
这种智能体的未来已经在英伟达和Google自己的工程团队中成型,AI正在设计下一代芯片。
Dean指出了Google在芯片设计中使用AI进行布局和布线的成功——引用其备受赞誉的AlphaChip研究——而Dally详细阐述了英伟达在其设计管道中使用AI的情况。
英伟达最成功的内部工具之一是NVCell,这是一个强化学习程序。每次公司转向新的半导体工艺时,工程师必须移植多达3000个单元的标准单元库。
“过去需要8人团队花费约10个月,”Dally说。”我们开发了一个基于强化学习的程序,结果实际上比人类设计更好。”
除了物理芯片布局,英伟达还部署了一个名为ChipNeMo的定制大语言模型来提升工程生产力。
ChipNeMo在英伟达专有硬件设计文档上训练,作为初级工程师的导师,节省了资深设计师解释特定芯片组件基本功能的时间。它还可以总结错误报告并自动将其路由到合适的设计师进行解决。
Dally希望AI最终能够自动化芯片开发中最耗时的部分。”我很希望能够简单地说,’给我设计一个新的GPU’,然后我去滑雪几天,回来时就完成了,”他说,尽管他承认距离那个现实还很遥远。
即使那一天到来,Dally预期AI芯片设计师也会依赖一个主智能体来编排专门的子智能体,这些智能体相互协商来确定架构,复制人类工程师今天举行的会议。
Q&A
Q1:为什么传统软件工具无法适应AI智能体的工作速度?
A:因为AI智能体运行速度远超人类,而传统工具如编译器、生产力应用程序的启动时间和响应延迟对人类来说不是问题,但会在智能体高速操作时造成巨大的性能瓶颈。因此需要根本性重新设计来匹配机器速度。
Q2:AI模型如何实现自主研发能力?
A:通过神经架构搜索技术,模型可以用自然语言指定研究空间,自动进行实验、整理数据并训练下一版本。模型需要突破传统训练限制,在环境中采取行动或预测答案后再回到学习状态,显著提高学习效率。
Q3:英伟达如何解决AI计算中的能耗问题?
A:主要策略是”不要移动数据”,因为数据移动消耗的能量是计算本身的1000倍。英伟达通过3D堆叠技术将内存直接堆叠在GPU之上,减少数据移动距离,同时探索稀疏性技术跳过不重要的计算来降低能耗。