主持了灵初智能的发布会，00后联创源培让我很佩服

网易专栏2个月前发布 nxnqh

34 0 0

发布时间：2026-04-12 22:46:28

#AI | #灵初智能

来源：网易专栏作者：AI异类
🔗 查看原文

🤖 AI总结

主题

关于灵初智能发布新一代具身智能大模型Psi-R2及其创新数据采集方案。

摘要

灵初智能发布具身智能大模型Psi-R2,通过创新的人类数据采集与双系统架构,显著提升了机器人在复杂任务中的表现和部署效率。

关键信息

1 灵初智能发布具身智能大模型Psi-R2,在MolmoSpace评测中获全球第一。
2 公司通过自研外骨骼手套采集10万小时人类操作数据,成本仅为传统方案的十分之一。
3 采用Psi-R2（策略模型）与Psi-W0（世界模型）双系统架构,让机器人学习成功与失败经验。

主持了灵初智能的发布会，00后联创源培让我很佩服

前两天主持了灵初智能的发布会，印象特别深。

那天晚上在北京，发布会形式挺新颖的，灵初智能的联合创始人陈源培，跟我坐在一块儿，边聊边发布。

有点像平时在直播间里聊技术那样，有什么问题当场就问，有什么干货当场就展示。

主持了灵初智能的发布会，00后联创源培让我很佩服

源培就坐我右手边。

源培是00后，比我还小一点，在北大师从杨耀东，在斯坦福跟着李飞飞做过世界模型研究，现在已经是具身圈年轻一代里的代表人物了。

现场我问了不少有点尖锐的问题：

为什么必须要人类数据，机器数据不是更主流？是不是为了标新立异？

机器人操作失败的比例有多高？为什么有的场景没覆盖到？

说实话，最开始我对灵初智能和源培，是有些疑问的——李飞飞和那么多国内具身公司都没做好的事，为什么你们可以？

但是这次直播发布，真的打消了我的疑惑。

主持了灵初智能的发布会，00后联创源培让我很佩服

发布的新一代具身智能大模型Psi-R2，在国际权威评测MolmoSpace中斩获全球第一。

模型的背后，还有10万小时的人类操作数据，其中1000小时开源。

这个量级放在整个行业里看，属于独一档的存在。

下面我就把那天晚上聊的内容，和我自己的一些感受，好好复盘一下。

01具身智能被卡脖子的地方，其实不是算法

发布会一开始，我就把那个很多人都在问的问题直接抛给了源培：为什么偏偏具身智能会有数据荒？

源培的回答很干脆。大语言模型也好，自动驾驶也好，它们都站在了巨人的肩膀上。互联网发展了这么多年，积累了海量的文本、图像、视频数据。

GPT们可以像喝自来水一样直接从这些数据里汲取养分，靠算力的粗暴堆砌就能让性能稳步提升。

主持了灵初智能的发布会，00后联创源培让我很佩服

但机器人不行。

物理世界太复杂了，复杂到没有一个现成的数据集能覆盖它。你没办法让机器人在真实的工厂车间里边干活边攒数据，成本太高，效率太低，而且很多场景根本就不允许犯错。

这是一个根本性的难题。没有足够的高质量数据，再精巧的模型架构都是空中楼阁。

行业内一直在尝试各种解法。仿真数据是个方向，在虚拟环境里让机器人反复练习，听起来很美好。但仿真和真实世界之间永远有一道鸿沟，一道被称为Sim-to-Real的鸿沟。

在仿真里学得再好的模型，一到真实环境就水土不服，尤其在处理布料、液体这类柔性物体时，仿真器根本无能为力。

主持了灵初智能的发布会，00后联创源培让我很佩服

真机遥操作是另一个主流路线。

让人远程操控机器人做动作，把操作轨迹录下来当训练数据。但这个方案的缺陷也很明显——贵。雇佣专人采集数据，成本居高不下，而且采集效率极低。

一个人一天能采多少有效数据？更何况，世界上所有的场景、所有的物体、所有的操作，你不可能都在数采场里复刻一遍。

灵初的选择不太一样。他们没有在仿真和遥操这两条路上死磕，而是把目光投向了另一个方向——直接从人类身上取经。

源培讲这个的时候，我插了一句话。我说你这个思路听起来很朴素啊。他笑了笑说，最朴素的路往往最有效。

人类每天都在真实环境里用双手完成各种精细操作，这些数据天然带着真实的任务节拍、真实的操作细节，天然贴近机器人未来要面对的工作世界。

如果能把人类在物流仓库里的分拣动作、在工厂流水线上的装配手法，变成机器人可以学习的养分，那数据问题就有了真正的解法。

但事情没这么简单。人类和机器人之间存在一个叫本体差异的天然障碍。

人手有二十多个自由度，关节的运动学结构、动力学的响应特性，都和机械手截然不同。

直接拿人类数据去训练机器人，就像让一个乒乓球运动员去教一个篮球运动员怎么投篮，动作逻辑完全不同。

主持了灵初智能的发布会，00后联创源培让我很佩服

更麻烦的是精度问题。

很多人类操作数据来自第一视角的视频，轨迹恢复精度只有厘米级。对于手机装配这类需要亚毫米级精度的任务，这种误差会被迅速放大，根本没法用。

我问源培，你们是怎么解决这个问题的，他讲得尤其透。

02一副手套，撬动整个数据体系

灵初自己研发了一套叫Psi-SynEngine的数据采集方案。

核心是一副便携式外骨骼触觉手套。

主持了灵初智能的发布会，00后联创源培让我很佩服

这副手套不是普通的手套。

它能精确捕捉人手的21个关节自由度，覆盖全手的触觉信息，定位精度达到亚毫米级别。更重要的是，工人在日常作业中佩戴它，完全不影响正常操作。

手套会同步记录头戴视角和手部视角的视觉数据，同时采集触觉、动作、语言等多模态信息。

这就意味着，灵初可以直接走进物流仓库、工厂车间、商超收银台，让一线的分拣员、装配工、收银员在日常工作中自然佩戴，在不改变任何既有作业流程的前提下，采集到最真实的人类操作数据。

成本是这个方案的杀手锏。

源培告诉我，通过手套采集数据的综合成本，只有真机遥操方案的十分之一左右。

十分之一！我当时就在想，这个成本优势如果真能跑通，灵初在数据采集这条线上就已经把很多竞争对手甩开了。

灵初采集的数据分为两类。

一类是通过外骨骼手套采集的高精度数据，轨迹精度达到亚毫米级别，专门用于训练精细操作能力；

另一类是裸手操作的泛化数据，精度没那么高但规模更大，主要负责提供泛化能力，让模型见过足够多的任务和物体。

这里要特别提一下数据信噪比这个概念。源培在直播里花了不少时间讲这个，我觉得这是整场发布会最有技术含量的部分之一。

灵初在大量实验中发现，数据信噪比才是决定人类数据能否有效支撑预训练的核心因素。

低信噪比的数据不仅没用，甚至可能起反作用。

判断数据信噪比，可以从两方面看。

一是数据集分布。

操作任务的多样性比物体的多样性更重要，物体的多样性又比场景的多样性重要。泛化能力是模型最难学会的能力之一，预训练阶段见过越多不同的任务和操作对象，接手新任务的速度就越快。

二是感知模态。

精准的3D位姿追踪比触觉模态重要，触觉模态又比2D图像特征重要。

这个认知直接决定了灵初的数据采集策略。

主持了灵初智能的发布会，00后联创源培让我很佩服

他们既要高精度可复现的数据来保证模型的执行精度，也要低精度大范围的泛化数据来扩展模型的适应能力。两条腿走路，缺一不可。

最终构建起来的预训练数据集，包含了5417小时的真机数据和95472小时的人类数据，覆盖294种场景、4821类任务和1382种物体。

95472小时。将近10万小时。这还不算完，源培说到了年底，他们计划把这个数字扩展到百万量级。

但数据只是故事的一半。灵初真正有意思的地方，是把这些数据喂给了一个什么样的脑子。这部分是我个人最感兴趣的。

03双系统架构，一个学怎么做，一个学什么不能做

直播里源培讲得最精彩的段落，就是灵初的双系统架构。我在旁边听得直点头，弹幕里也刷得飞起。

灵初发布了两套模型：Psi-R2和Psi-W0。

主持了灵初智能的发布会，00后联创源培让我很佩服

Psi-R2是一个策略模型，核心功能是让机器人学会怎么做事情。

图像和语言指令作为输入，输出预测的未来操作视频和可执行的机器人动作。灵初把它叫做世界行动模型。

训练Psi-R2的时候，灵初做了一个相当大胆的决定——不走对齐路线。源培告诉我，他们尝试过图像修补、关键点辅助、特征空间对齐等各种方法，想把人类数据尽可能修成更像机器人数据的样子。

但最后发现，数据量小的时候这些方法有帮助，数据量一旦上来，它们反而会变成瓶颈。

原因不复杂。

那些方法本质上都在努力模糊人和机器人的差异，但在长程、精细、接触密集的任务里，这种差异恰恰不能被轻易抹平。

越是复杂和精细的任务，越需要承认两种本体的差异，然后想办法在更高的维度上建立映射，而不是强行抹平。

灵初的做法是化繁为简：原生数据进，原生数据出。

舍弃人工设计的复杂数据处理流程，直接进行人类关节与机器人本体的运动学对齐，让模型在海量数据中自行探索模式。

同时用自动标注替代人工进行数据质检和标注，最后再交由人工审核把关。

这个思路听起来简单，但能做到需要两个前提：数据量足够大、数据质量足够高。灵初恰好两个都占了。

主持了灵初智能的发布会，00后联创源培让我很佩服

但Psi-R2有一个天然的局限。它学到的只有成功的操作。比如模型学会了成功抓起一个苹果，但它没有机会学到苹果没抓稳掉下去的情况。而失败经验恰恰是机器人成长的重要养分。

没有失败，就没有优化，就没有进步。

这就是Psi-W0存在的理由。Psi-W0是一个动作条件型世界模型。

它的输入是机器人动作，输出是对未来场景视频的预测。更关键的是，灵初在Psi-W0的训练数据里特意混入了大约30%的失败样本，涵盖专项采集的失败案例、常规操作中的失误、以及推理过程中产生的错误。

有了Psi-W0，灵初就可以做一件事——反事实推理。

当Psi-R2学完一个人类操作动作之后，Psi-W0会模拟这个操作可能出现的各种后果，检查有没有学漏学歪，预测哪些动作可能会导致失败。就像一个教练站在旁边，在运动员完成动作之后说，你看，如果你刚才手腕的角度偏了两度，球就不会进。

源培给我举了个例子。

他说如果Psi-R2学会了抓起一个杯子，Psi-W0就会去预测：如果抓的位置偏了会怎么样，如果力度不够会怎么样，如果桌面有倾斜会怎么样。这些反事实的推演，让机器人不用真的去犯错，就能学到失败的经验。

Psi-W0还有一个核心功能，是通过强化学习将人类数据转换为机器人数据。传统方法中，数据转换靠的是仿真环境调整，不仅复杂而且准确性不高。

但用Psi-W0替代后，它会模拟机器人视角和动作模式，再通过强化学习的试错调优，将人类动作调整为机器人能精准执行的动作。

在这个过程中还能持续生成新的优质数据，反向喂给Psi-R2和Psi-W0继续学习，形成闭环的数据飞轮。

这里我特别问了一下推理速度的问题。因为世界行动模型这类架构普遍有一个bug：反应慢。

源培承认，Psi-R2单次推理原本需要2.2秒，反映到机器人身上就是明显的卡顿。

但他们通过DiT缓存、Torch编译、模型量化等一系列技术优化，把反应时间极限压缩到了100毫秒以内。

直播里源培现场展示了经过Psi双系统训练后的机器人表现。

手机装配、工业包装、叠纸盒这些长程精细操作，机器人完成得行云流水。

而且灵初强调，经过这10万小时人类数据预训练之后，机器人只需要不到100条真机轨迹的微调，就能完成新任务的部署。

这意味着什么？意味着企业想要引入灵初的机器人方案，部署成本和周期都会被大幅压缩。

我当时就在想，如果这个数据是真的，那灵初在商业落地的速度上可能会领先同行一个身位。

整场发布会最让人信服的部分，是硬核数据的验证。

灵初Psi-R2登顶了MolmoSpace榜单。

这个平台由美国艾伦人工智能研究所发起，是全球具身智能领域最权威的基准评测平台之一，NVIDIA、PI这些全球顶尖团队都参与了本次评测。

Psi-R2一举超越了PI、DreamZero等国际知名模型，表现显著优于其他基线模型。在成功率这块，比同类VLA模型要高出近10倍。

这不只是中国团队在国际舞台上的一次亮眼表现。它说明灵初这条人类数据加双系统架构的路线，经得起最严苛的检验。

我当时在台上看到这个数据，心里第一反应是：这帮年轻人是真的猛。

04开源不是情怀，是最聪明的商业选择

发布会后半段，灵初宣布了几件事。

一是与北京石景山区共建数采基地，要在更广的范围内铺开数据采集网络。

二是与腾讯云、抖音、觅蜂科技、智域基石达成生态合作，覆盖算力、数据服务、应用场景等多个维度。三是年底要将数据集扩展到百万量级。

但最让我在意的，是他们决定开源首批1000小时人类手部操作数据集。

在这个数据就是核心资产的行业里，愿意把自己辛辛苦苦采集的数据拿出来开源，不是每个团队都做得到的。

我当场就问源培，你们不心疼吗？

他的回答让我印象很深。

他说开源对于灵初自身来说，是让全行业帮他们快速采集海量数据的杠杆。

只有开源，才能吸引更多的开发者和研究机构参与到这套体系中，才能弥补数据飞轮闭环中的关键一环。

AI时代，时间和数据就是最稀缺的资源。越早进场、拥有越多数据，就能越早收获长尾效应。

主持了灵初智能的发布会，00后联创源培让我很佩服

而站在整个行业的角度，开源是打破技术孤岛的钥匙。

具身智能这个赛道，没有任何一家公司能单打独斗走完全程。标准化的数据管线、开源的预训练底座，能够建立起广袤的开发者生态，让全行业的力量汇聚到一起，共同推动技术向前走。

全行业开源共建，还能反向喂养灵初这样的硬核玩家，让他们集中精力攻坚最难的技术瓶颈，而不是在重复造轮子的泥潭里挣扎。

集众智，才是具身智能跑赢节拍、实现商业落地的唯一捷径。

我当时听完，觉得这个思路很清醒。

不是那种为了博好感的开源，是想清楚了自己要什么、能换来什么的开源。这种务实在这个行业里不多见。

主持了灵初智能的发布会，00后联创源培让我很佩服

我突然想起他在之前一个采访里说过的话。

有人问他为什么选择创业，他说在北大和斯坦福做了那么长时间的学术研究，更想进入工业界，做出真正能够影响世界的产品。

AI发展得很快，不会出现论资排辈的现象，任何一个突破都有可能产生颠覆性的影响。

哪怕是只有一个人也可以创业，要敢想敢做。现在是非常好的机会，只要你够强，学得够快，你做出来的东西就很有可能会比其他人都好。

那天晚上回到家，我翻来覆去睡不着，脑子里一直在转一个问题。

具身智能这盘棋，到底会怎么走？

答案可能就藏在那些最不起眼的地方：

在物流仓库里分拣员的每一次抬手，在工厂流水线上装配工的每一次拧螺丝，在商超收银员的每一次扫码。

这些最日常、最朴素的人类操作，正在成为训练未来机器人的养分。

灵初这次做的事情，说到底就两件：让机器人吃什么样的数据，让机器人长什么样的脑子。

而这两件事，都指向同一个方向——让机器人真正走进真实世界，在那些具体的、复杂的、充满不确定性的场景里，帮人干活。

有仰望星空的勇气，也有脚踏实地的努力。

具身智能正在因为这场青春风暴，变得不太一样。

网易专栏 # AI # 灵初智能

文章版权归作者所有，未经允许请勿转载。

美国紧急应对网民用AI还原坠机飞行员临终声音事件

网易专栏 # AI # NTSB

6天前

GreyOrange推出AI仓储模拟平台，助力自动化部署决策

网易专栏 # AI # GreyMatter Foundry

2周前

斯坦福学者训练生成式AI成为更好的创意协作伙伴

网易专栏 # AI # ControlNet

3个月前

两家安全公司获融资，用AI自动化管理网络风险

网易专栏 # IT # Reclaim Security

3个月前

主持了灵初智能的发布会，00后联创源培让我很佩服

🤖 AI总结

主题

摘要

关键信息

HTML-in-Canvas引爆前端！AI时代互联网视觉效果完全不一样了

lmdeploy v0.12.3：视频输入、Qwen3.5、TurboMind 压缩张量、Ray 安全 API 等重大升级全面解析

相关文章

美国紧急应对网民用AI还原坠机飞行员临终声音事件

GreyOrange推出AI仓储模拟平台，助力自动化部署决策

斯坦福学者训练生成式AI成为更好的创意协作伙伴

两家安全公司获融资，用AI自动化管理网络风险