主持了灵初智能的发布会,00后联创源培让我很佩服

网易专栏6天前发布 nxnqh
10 0 0

🤖 AI总结

主题

关于灵初智能发布新一代具身智能大模型Psi-R2及其创新数据采集方案。

摘要

灵初智能发布具身智能大模型Psi-R2,通过创新的人类数据采集与双系统架构,显著提升了机器人在复杂任务中的表现和部署效率。

关键信息

  • 1 灵初智能发布具身智能大模型Psi-R2,在MolmoSpace评测中获全球第一。
  • 2 公司通过自研外骨骼手套采集10万小时人类操作数据,成本仅为传统方案的十分之一。
  • 3 采用Psi-R2(策略模型)与Psi-W0(世界模型)双系统架构,让机器人学习成功与失败经验。

主持了灵初智能的发布会,00后联创源培让我很佩服

前两天主持了灵初智能的发布会,印象特别深。

那天晚上在北京,发布会形式挺新颖的,灵初智能的联合创始人陈源培,跟我坐在一块儿,边聊边发布。

有点像平时在直播间里聊技术那样,有什么问题当场就问,有什么干货当场就展示。

主持了灵初智能的发布会,00后联创源培让我很佩服

源培就坐我右手边。

源培是00后,比我还小一点,在北大师从杨耀东,在斯坦福跟着李飞飞做过世界模型研究,现在已经是具身圈年轻一代里的代表人物了。

现场我问了不少有点尖锐的问题:

为什么必须要人类数据,机器数据不是更主流?是不是为了标新立异?

机器人操作失败的比例有多高?为什么有的场景没覆盖到?

说实话,最开始我对灵初智能和源培,是有些疑问的——李飞飞和那么多国内具身公司都没做好的事,为什么你们可以?

但是这次直播发布,真的打消了我的疑惑。

主持了灵初智能的发布会,00后联创源培让我很佩服

发布的新一代具身智能大模型Psi-R2,在国际权威评测MolmoSpace中斩获全球第一。

模型的背后,还有10万小时的人类操作数据,其中1000小时开源。

这个量级放在整个行业里看,属于独一档的存在。

下面我就把那天晚上聊的内容,和我自己的一些感受,好好复盘一下。

01具身智能被卡脖子的地方,其实不是算法

发布会一开始,我就把那个很多人都在问的问题直接抛给了源培:为什么偏偏具身智能会有数据荒?

源培的回答很干脆。大语言模型也好,自动驾驶也好,它们都站在了巨人的肩膀上。互联网发展了这么多年,积累了海量的文本、图像、视频数据。

GPT们可以像喝自来水一样直接从这些数据里汲取养分,靠算力的粗暴堆砌就能让性能稳步提升。

主持了灵初智能的发布会,00后联创源培让我很佩服

但机器人不行。

物理世界太复杂了,复杂到没有一个现成的数据集能覆盖它。你没办法让机器人在真实的工厂车间里边干活边攒数据,成本太高,效率太低,而且很多场景根本就不允许犯错。

这是一个根本性的难题。没有足够的高质量数据,再精巧的模型架构都是空中楼阁。

行业内一直在尝试各种解法。仿真数据是个方向,在虚拟环境里让机器人反复练习,听起来很美好。但仿真和真实世界之间永远有一道鸿沟,一道被称为Sim-to-Real的鸿沟。

在仿真里学得再好的模型,一到真实环境就水土不服,尤其在处理布料、液体这类柔性物体时,仿真器根本无能为力。

主持了灵初智能的发布会,00后联创源培让我很佩服

真机遥操作是另一个主流路线。

让人远程操控机器人做动作,把操作轨迹录下来当训练数据。但这个方案的缺陷也很明显——贵。雇佣专人采集数据,成本居高不下,而且采集效率极低。

一个人一天能采多少有效数据?更何况,世界上所有的场景、所有的物体、所有的操作,你不可能都在数采场里复刻一遍。

灵初的选择不太一样。他们没有在仿真和遥操这两条路上死磕,而是把目光投向了另一个方向——直接从人类身上取经。

源培讲这个的时候,我插了一句话。我说你这个思路听起来很朴素啊。他笑了笑说,最朴素的路往往最有效。

人类每天都在真实环境里用双手完成各种精细操作,这些数据天然带着真实的任务节拍、真实的操作细节,天然贴近机器人未来要面对的工作世界。

如果能把人类在物流仓库里的分拣动作、在工厂流水线上的装配手法,变成机器人可以学习的养分,那数据问题就有了真正的解法。

但事情没这么简单。人类和机器人之间存在一个叫本体差异的天然障碍。

人手有二十多个自由度,关节的运动学结构、动力学的响应特性,都和机械手截然不同。

直接拿人类数据去训练机器人,就像让一个乒乓球运动员去教一个篮球运动员怎么投篮,动作逻辑完全不同。

主持了灵初智能的发布会,00后联创源培让我很佩服

更麻烦的是精度问题。

很多人类操作数据来自第一视角的视频,轨迹恢复精度只有厘米级。对于手机装配这类需要亚毫米级精度的任务,这种误差会被迅速放大,根本没法用。

我问源培,你们是怎么解决这个问题的,他讲得尤其透。

02一副手套,撬动整个数据体系

灵初自己研发了一套叫Psi-SynEngine的数据采集方案。

核心是一副便携式外骨骼触觉手套。

主持了灵初智能的发布会,00后联创源培让我很佩服

这副手套不是普通的手套。

它能精确捕捉人手的21个关节自由度,覆盖全手的触觉信息,定位精度达到亚毫米级别。更重要的是,工人在日常作业中佩戴它,完全不影响正常操作。

手套会同步记录头戴视角和手部视角的视觉数据,同时采集触觉、动作、语言等多模态信息。

这就意味着,灵初可以直接走进物流仓库、工厂车间、商超收银台,让一线的分拣员、装配工、收银员在日常工作中自然佩戴,在不改变任何既有作业流程的前提下,采集到最真实的人类操作数据。

成本是这个方案的杀手锏。

源培告诉我,通过手套采集数据的综合成本,只有真机遥操方案的十分之一左右。

十分之一!我当时就在想,这个成本优势如果真能跑通,灵初在数据采集这条线上就已经把很多竞争对手甩开了。

灵初采集的数据分为两类。

一类是通过外骨骼手套采集的高精度数据,轨迹精度达到亚毫米级别,专门用于训练精细操作能力;

另一类是裸手操作的泛化数据,精度没那么高但规模更大,主要负责提供泛化能力,让模型见过足够多的任务和物体。

这里要特别提一下数据信噪比这个概念。源培在直播里花了不少时间讲这个,我觉得这是整场发布会最有技术含量的部分之一。

灵初在大量实验中发现,数据信噪比才是决定人类数据能否有效支撑预训练的核心因素。

低信噪比的数据不仅没用,甚至可能起反作用。

判断数据信噪比,可以从两方面看。

一是数据集分布。

操作任务的多样性比物体的多样性更重要,物体的多样性又比场景的多样性重要。泛化能力是模型最难学会的能力之一,预训练阶段见过越多不同的任务和操作对象,接手新任务的速度就越快。

二是感知模态。

精准的3D位姿追踪比触觉模态重要,触觉模态又比2D图像特征重要。

这个认知直接决定了灵初的数据采集策略。

主持了灵初智能的发布会,00后联创源培让我很佩服

他们既要高精度可复现的数据来保证模型的执行精度,也要低精度大范围的泛化数据来扩展模型的适应能力。两条腿走路,缺一不可。

最终构建起来的预训练数据集,包含了5417小时的真机数据和95472小时的人类数据,覆盖294种场景、4821类任务和1382种物体。

95472小时。将近10万小时。这还不算完,源培说到了年底,他们计划把这个数字扩展到百万量级。

但数据只是故事的一半。灵初真正有意思的地方,是把这些数据喂给了一个什么样的脑子。这部分是我个人最感兴趣的。

03双系统架构,一个学怎么做,一个学什么不能做

直播里源培讲得最精彩的段落,就是灵初的双系统架构。我在旁边听得直点头,弹幕里也刷得飞起。

灵初发布了两套模型:Psi-R2和Psi-W0。

主持了灵初智能的发布会,00后联创源培让我很佩服

Psi-R2是一个策略模型,核心功能是让机器人学会怎么做事情。

图像和语言指令作为输入,输出预测的未来操作视频和可执行的机器人动作。灵初把它叫做世界行动模型。

训练Psi-R2的时候,灵初做了一个相当大胆的决定——不走对齐路线。源培告诉我,他们尝试过图像修补、关键点辅助、特征空间对齐等各种方法,想把人类数据尽可能修成更像机器人数据的样子。

但最后发现,数据量小的时候这些方法有帮助,数据量一旦上来,它们反而会变成瓶颈。

原因不复杂。

那些方法本质上都在努力模糊人和机器人的差异,但在长程、精细、接触密集的任务里,这种差异恰恰不能被轻易抹平。

越是复杂和精细的任务,越需要承认两种本体的差异,然后想办法在更高的维度上建立映射,而不是强行抹平。

灵初的做法是化繁为简:原生数据进,原生数据出。

舍弃人工设计的复杂数据处理流程,直接进行人类关节与机器人本体的运动学对齐,让模型在海量数据中自行探索模式。

同时用自动标注替代人工进行数据质检和标注,最后再交由人工审核把关。

这个思路听起来简单,但能做到需要两个前提:数据量足够大、数据质量足够高。灵初恰好两个都占了。

主持了灵初智能的发布会,00后联创源培让我很佩服

但Psi-R2有一个天然的局限。它学到的只有成功的操作。比如模型学会了成功抓起一个苹果,但它没有机会学到苹果没抓稳掉下去的情况。而失败经验恰恰是机器人成长的重要养分。

没有失败,就没有优化,就没有进步。

这就是Psi-W0存在的理由。Psi-W0是一个动作条件型世界模型。

它的输入是机器人动作,输出是对未来场景视频的预测。更关键的是,灵初在Psi-W0的训练数据里特意混入了大约30%的失败样本,涵盖专项采集的失败案例、常规操作中的失误、以及推理过程中产生的错误。

有了Psi-W0,灵初就可以做一件事——反事实推理。

当Psi-R2学完一个人类操作动作之后,Psi-W0会模拟这个操作可能出现的各种后果,检查有没有学漏学歪,预测哪些动作可能会导致失败。就像一个教练站在旁边,在运动员完成动作之后说,你看,如果你刚才手腕的角度偏了两度,球就不会进。

源培给我举了个例子。

他说如果Psi-R2学会了抓起一个杯子,Psi-W0就会去预测:如果抓的位置偏了会怎么样,如果力度不够会怎么样,如果桌面有倾斜会怎么样。这些反事实的推演,让机器人不用真的去犯错,就能学到失败的经验。

Psi-W0还有一个核心功能,是通过强化学习将人类数据转换为机器人数据。传统方法中,数据转换靠的是仿真环境调整,不仅复杂而且准确性不高。

但用Psi-W0替代后,它会模拟机器人视角和动作模式,再通过强化学习的试错调优,将人类动作调整为机器人能精准执行的动作。

在这个过程中还能持续生成新的优质数据,反向喂给Psi-R2和Psi-W0继续学习,形成闭环的数据飞轮。

这里我特别问了一下推理速度的问题。因为世界行动模型这类架构普遍有一个bug:反应慢。

源培承认,Psi-R2单次推理原本需要2.2秒,反映到机器人身上就是明显的卡顿。

但他们通过DiT缓存、Torch编译、模型量化等一系列技术优化,把反应时间极限压缩到了100毫秒以内。

直播里源培现场展示了经过Psi双系统训练后的机器人表现。

手机装配、工业包装、叠纸盒这些长程精细操作,机器人完成得行云流水。

而且灵初强调,经过这10万小时人类数据预训练之后,机器人只需要不到100条真机轨迹的微调,就能完成新任务的部署。

这意味着什么?意味着企业想要引入灵初的机器人方案,部署成本和周期都会被大幅压缩。

我当时就在想,如果这个数据是真的,那灵初在商业落地的速度上可能会领先同行一个身位。

整场发布会最让人信服的部分,是硬核数据的验证。

灵初Psi-R2登顶了MolmoSpace榜单。

这个平台由美国艾伦人工智能研究所发起,是全球具身智能领域最权威的基准评测平台之一,NVIDIA、PI这些全球顶尖团队都参与了本次评测。

Psi-R2一举超越了PI、DreamZero等国际知名模型,表现显著优于其他基线模型。在成功率这块,比同类VLA模型要高出近10倍。

这不只是中国团队在国际舞台上的一次亮眼表现。它说明灵初这条人类数据加双系统架构的路线,经得起最严苛的检验。

我当时在台上看到这个数据,心里第一反应是:这帮年轻人是真的猛。

04开源不是情怀,是最聪明的商业选择

发布会后半段,灵初宣布了几件事。

一是与北京石景山区共建数采基地,要在更广的范围内铺开数据采集网络。

二是与腾讯云、抖音、觅蜂科技、智域基石达成生态合作,覆盖算力、数据服务、应用场景等多个维度。三是年底要将数据集扩展到百万量级。

但最让我在意的,是他们决定开源首批1000小时人类手部操作数据集。

在这个数据就是核心资产的行业里,愿意把自己辛辛苦苦采集的数据拿出来开源,不是每个团队都做得到的。

我当场就问源培,你们不心疼吗?

他的回答让我印象很深。

他说开源对于灵初自身来说,是让全行业帮他们快速采集海量数据的杠杆。

只有开源,才能吸引更多的开发者和研究机构参与到这套体系中,才能弥补数据飞轮闭环中的关键一环。

AI时代,时间和数据就是最稀缺的资源。越早进场、拥有越多数据,就能越早收获长尾效应。

主持了灵初智能的发布会,00后联创源培让我很佩服

而站在整个行业的角度,开源是打破技术孤岛的钥匙。

具身智能这个赛道,没有任何一家公司能单打独斗走完全程。标准化的数据管线、开源的预训练底座,能够建立起广袤的开发者生态,让全行业的力量汇聚到一起,共同推动技术向前走。

全行业开源共建,还能反向喂养灵初这样的硬核玩家,让他们集中精力攻坚最难的技术瓶颈,而不是在重复造轮子的泥潭里挣扎。

集众智,才是具身智能跑赢节拍、实现商业落地的唯一捷径。

我当时听完,觉得这个思路很清醒。

不是那种为了博好感的开源,是想清楚了自己要什么、能换来什么的开源。这种务实在这个行业里不多见。

主持了灵初智能的发布会,00后联创源培让我很佩服

我突然想起他在之前一个采访里说过的话。

有人问他为什么选择创业,他说在北大和斯坦福做了那么长时间的学术研究,更想进入工业界,做出真正能够影响世界的产品。

AI发展得很快,不会出现论资排辈的现象,任何一个突破都有可能产生颠覆性的影响。

哪怕是只有一个人也可以创业,要敢想敢做。现在是非常好的机会,只要你够强,学得够快,你做出来的东西就很有可能会比其他人都好。

那天晚上回到家,我翻来覆去睡不着,脑子里一直在转一个问题。

具身智能这盘棋,到底会怎么走?

答案可能就藏在那些最不起眼的地方:

在物流仓库里分拣员的每一次抬手,在工厂流水线上装配工的每一次拧螺丝,在商超收银员的每一次扫码。

这些最日常、最朴素的人类操作,正在成为训练未来机器人的养分。

灵初这次做的事情,说到底就两件:让机器人吃什么样的数据,让机器人长什么样的脑子。

而这两件事,都指向同一个方向——让机器人真正走进真实世界,在那些具体的、复杂的、充满不确定性的场景里,帮人干活。

有仰望星空的勇气,也有脚踏实地的努力。

具身智能正在因为这场青春风暴,变得不太一样。

© 版权声明

相关文章