🤖 AI总结
主题
纯推理GPU公司曦望的融资与战略布局
摘要
纯推理GPU公司曦望一年内融资40亿,估值超百亿,通过全栈自研的启望S3芯片将推理成本大幅降低,瞄准互联网大厂市场,由顶尖团队驱动。
关键信息
- 1 曦望一年内完成七轮融资累计40亿元,估值超百亿。
- 2 公司All in推理GPU,推出启望S3芯片,目标百万Token成本降至一分钱。
- 3 团队由商汤、AMD、百度等背景的‘三位一体’领导层组成,员工持股比例高。
金磊 发自 凹非寺
量子位 | 公众号 QbitAI
杭州速度,这个词组的含金量还在上升。
因为一家纯推理GPU公司,在分拆独立仅1年多时间里,竟已经完成了七轮融资,累计40亿元!
而随着前几天最新一轮融资的曝光,还以10亿元拿下今年这个赛道里最大单笔融资,一举成为国内首家估值超百亿的纯推理GPU独角兽。
它,就是曦望。
![]()
推理正在成为 AI 算力竞速的新风口。今年英伟达GTC,直接拿收购来的Groq推出LPU,而国内,国产版Groq也在狂飙突进。
加之在几乎所有国产GPU都在卷训推一体、拼峰值算力的大环境下,曦望凭什么靠All in推理的路线,受到资本市场如此的青睐?
带着这个问题,量子位与曦望联席CEO王湛进行了一场深度对话。
这位百度创始团队出身、亲历了中国互联网从泡沫到繁荣全过程的行业老兵,不仅一语道破了资本追捧背后的核心逻辑,更从行业趋势、技术路线、团队组织与未来判断四个维度,向我们勾勒出了一幅清晰的AI推理时代新蓝图。
算力需求的结构反转了
时间拨回一两年前,当百模大战打得火热时,市场最关心的指标是大模型的参数量、训练集群的规模。但在2026年的当下,风向已经彻底变了。
访谈伊始,王湛就抛出了这样的定调:
谁掌握最低的推理成本,谁就是赢家。
Agent的本质是让AI不再局限于一问一答的聊天机器人,是要它成为能够自主分析、学习并执行复杂任务的智能实体。
而驱动这一切运转的底层燃料,就是推理算力,或者更直白地说——Token。
这就带来了一个巨大的行业拐点:算力需求的结构性反转。
市场上最热的就是推理算力需求,呈现出了指数级的增长。训练算力的需求依然保持平稳,但在我们目前看到的数据中,整个2026年,AI推理计算的需求量将达到训练算力需求的4-5倍。
这是推理算力第一次全面超越训练算力,而且超越得如此迅猛。
为什么会产生这种反转?答案藏在Agent的运行机制里。
过去,人跟AI交互是单次对话;但在Agent时代,为了完成一个任务,智能体会进行高频的、多次的多轮调用和循环思考。
就像前几天国外一个小哥,只是跟龙虾说了一句“Hi”,就烧掉了80美元的Token。
![]()
△图片由AI生成
对此,王湛强调:
这种方式使得整个Token的消耗,达到了过去人机交互方式的几十倍甚至上百倍。在这个背景下,单位Token的成本就变得非常引人注目了。
换句话说,过去企业关心大模型“能不能用”,现在企业最关心的是“好不好用”以及“用不用得起”。
这也解释了为什么从英伟达在GTC上强调“每瓦Token吞吐量”,到国内云厂商接连因为成本压力调整算力价格,成本已经倒逼成为了技术演进的核心推手。
在王湛看来,降低成本不仅是商业诉求,更是技术普及的前提:
你只有将单位Token的成本出现大幅度降低,才能真正激活海量Agent的使用。不然这玩意儿再好用,用起来成本极高,大家也用不起。
而这,正是曦望在一开始就毅然决然选择All in 推理的根本原因——推理,才是真正的AI工业化。
百万Token一分钱,怎么做到?
如果说All in 推理是方向,那么如何在技术层面把成本真正打下来,就是对团队工程化能力和供应链洞察力的极致大考。
面对那些既要训练又要推理的客户疑问,曦望的态度非常明确:
通用GPU如果用来做大集群训练是很好的,但大规模推理场景其性价比往往不足。此外,智能体广泛普及的趋势下,推理算力还要能扛住高频调用的极低延迟、能支撑长上下文的极致稳定、能持续下降的单位Token成本。除了少数不计商业回报的特殊场景,从正常商业化角度来看,推理GPU是更有性价比优势的。
被市场发展印证了战略前瞻性后,曦望亮出了他们的底牌:新一代推理GPU芯片——启望S3。
![]()
这不仅仅是一次性能升级,更是一次对AI推理成本曲线的系统级重构:放弃训练能力,专为大模型推理做原生深度定制。通过裁剪训练态所需的模块,将节省出的晶体管与功耗预算集中投向推理,让单位面积有效算力效率提升5倍以上。曦望为S3定下的目标极具野心:要把百万Token的成本压至一分钱。
为了适应Agent时代KV Cache暴增、控制流复杂、多模型协同等痛点,S3在架构上进行了大刀阔斧的革新。
首先是计算层的深度定制。
通用GPU常常面临算力用不满的尴尬,而S3专为推理而生的AI Core架构,将GEMM和Flash Attention等核心算子的利用率硬生生拔高到了约99%与98%。同时,S3原生支持从FP16到FP4的全链路低精度运算,在模型效果接近无损的情况下,吞吐量翻了数倍。
其次是系统层的大胆创新,两个国内第一,也是专门为长上下文和智能体准备的:
S3是国内第一个用LPDDR6的推理GPU,也兼容LPDDR5X,显存最大可以做到接近600GB,是国内显存容量最大的GPU;而且也是目前已发布的国产GPU里,第一个用上PCIe Gen6的,系统通信带宽翻了一倍。
这两个技术加起来,解决了长上下文记忆的瓶颈:S3能同时存更多用户的对话记忆,处理更长的上下文,而且速度也快、成本大幅降低。
王湛对此解释道:我们的目标非常明确:把单位Token的成本降90%,做出普惠的推理算力。
当然,能把LPDDR6和PCIe Gen6 这两个业界最前沿的技术能顺利调通、用起来,用出极高的性能,绝非易事,这极度依赖全栈自研和超群的工程能力。
王湛自豪地表示,曦望的硬件AI Core和软件全栈都是100%自研。
GPU要真正发挥效能,必须是均衡的。你不能某一个地方极强,但中间卡着瓶颈。正是因为我们具备全栈自研能力,才能基于LPDDR6和PICe Gen6去做深度的调配与优化,把它的效能真正压榨出来。
但在坚持底层自主可控的同时,曦望并没有封闭自己,而是实现了对CUDA生态99%+的兼容。
在外界看来,自主可控与兼容CUDA似乎存在天然的矛盾。但在王湛眼中,这完全是路线选择的问题。
我们选择了通用计算架构(GPU),而不是专用架构(ASIC)。通用架构保证了对各种客户需求、不同Agent的极强适配性。在这个基础上,我们通过自己写底层代码来兼容CUDA生态。这既保证了客户零迁移成本的便利,又守住了我们底层的自主可控。这两者并不矛盾。
曦望目前保持了每一代芯片都实现一次性流片成功并点亮。
这背后,其实是一支极其庞大且低调的验证团队在默默支撑。据透露,曦望团队自主开发了全套的仿真验证工具,在芯片真正送去流片前,就已经在仿真平台上跑过了海量算子,哪里有瓶颈、怎么修,早已胸有成竹。
六边形战士和三位一体
任何一次现象级融资的背后,最核心的标的永远是人。
在与王湛的对话中,能强烈感受到他每天来上班时那种肾上腺素飙升的兴奋感。这种兴奋,源于他身处一个极度同频且强大的铁血战队之中。
曦望的顶层架构被业界戏称为“三位一体”:
- 董事长徐冰(商汤联合创始人):负责把控战略方向与融资,有极强的AI发展趋势洞察力;
- 联席CEO王勇(前AMD、昆仑芯核心架构师):专注芯片研发,拥有20多年硬核半导体经验,是实打实的技术灵魂;
- 联席CEO王湛(前百度资深副总裁):操盘商业化、运营与市场,将互联网大厂的敏锐嗅觉与产品打法注入这块硬科技的土壤。
![]()
然而,做AI基础设施,光靠三个人是不够的。正如王湛所说:
AI芯片的竞争,是一个全能赛,就像体操里的全能项目,吊环、双杠什么都得行。没有任何一个人能各方面都很强,我们必须靠好的组织管理,把优秀的人聚合在一起,打造我们的六边形战士网络。
目前的曦望,团队规模已达400余人,研发人员占比超80%,核心技术骨干来自英伟达、AMD、华为海思、阿里、商汤等大厂,平均行业经验超过15年。
为了留住这些顶尖的六边形战士,曦望在组织机制上做出了中国创企中极为罕见的让步。王湛向量子位透露了一个极具魄力的细节:
我们在所有中国GPU公司里,给了团队和员工最大的ESOP(员工持股计划)池。
徐冰在拉我入伙时就说过,他要拿出最大的ESOP池来招募最优秀的人才。只要我们把这件事情做成,人才的价值就会巨大。
这种类似于早期华为、阿里的分享机制,爆发出极强的组织战斗力。
Agent是泡沫还是工业革命?
拿下百亿估值、超10亿融资,置身于这场AI资本热潮中,曾经亲历过2000年互联网泡沫破裂的王湛,显得既清醒又坚定。
现在的一二级市场对硬科技的估值确实非常乐观。不仅是芯片公司,你看那些大模型公司的估值和收入比,确实夸张。面对划时代的技术突破机会,资本愿意去赌、去搏,这是资本的特性。
但这一次,AI和当年的互联网泡沫有着本质的不同。
王湛回忆,2000年互联网叫得震天响时,全中国的网民才几百万。即使发展了十年,PC网民也不过一亿多。这需要一个漫长的时间去渗透。
但AI呢?ChatGPT出来后,迅速成为人类历史上最快破亿用户的应用。而且它不是大家尝个鲜就走的淄博烧烤,这几年来,用户量在急速增加,且越用越离不开。
王湛认为,AI底层的基础价值正在以远超人类过往任何一次产业革命的速度迅速上升。
如果工业革命花了百年,信息革命花了二三十年,那么AI智能革命可能把社会的巨变压缩到短短几年。在这个时代,它或许上个月还是很大的泡沫,下个月就变成小泡沫了,底层的价值正在飞速填补这些估值。
对于今年下半年甚至更长远的算力市场规模,王湛的判断只有四个字:供不应求。
限制算力规模增长的根本不是市场需求,而是生产工具。光模块造不过来,内存被抢光涨了十倍,服务器都在抢。Seedance 2.0生成视频如果能从排队4小时缩短到1分钟,使用量会增加多少倍?只要瓶颈被打开,体验变好,需求就会成十倍百倍地暴涨。
在商业化落地上,曦望将目光瞄准了要求最苛刻的互联网大厂。
大厂对产品的要求极其苛刻,但我要求我们的团队,必须去找最难服务、标准最高的客户。只有在最大压力下被打磨出来的产品,才能真正立住根基。
依托S3海量的交付能力和团队生态布局,这块最难啃的骨头,正是曦望接下来的主攻方向。
在访谈的最后,作为中国科技发展的见证者和亲历者,王湛表示:
在这个时代,AI本质上是在分发智能,它给了人类一个机会去抹平信息鸿沟。只要你想清楚了你要干嘛,AI就能给你前所未有的助力。而我们曦望要做的,就是把这个极其厉害的东西,成本彻底降下来。
先知己,再知AI,方能百战不殆。
这不仅是王湛给在这个狂飙突进的AI时代中感到迷茫的年轻人的建议,或许,这也是曦望这家年轻的独角兽企业,能够在算力红海中精准破局、一路狂奔的真实写照。