🤖 AI总结
主题
关于AI Agent的驾驭工程(Harness Engineering)及其消费级产品CREAO的介绍与分析。
摘要
文章指出AI Agent的落地关键在于驾驭工程,并介绍了消费级产品CREAO如何让非技术用户也能轻松创建和运行自动化智能体,代表了AI从技术驱动向体验驱动的范式转换。
关键信息
- 1 Harness Engineering是让AI Agent稳定执行复杂任务的工程框架,决定了模型能力的实际发挥。
- 2 CREAO是全球首个面向普通用户的AI Agent Harness产品,能让用户用自然语言创建并持久运行自动化任务。
- 3 文章通过多个案例展示了CREAO在创建智能体、数据看板、品牌设计等任务中的强大易用性。
![]()
2026年春天的硅谷,Harness Engineering已经成了AI圈子里绕不开的热词。
从OpenAI Codex团队五个月内用Agent生成了超过一百万行生产级代码,到斯坦福和MIT的研究团队提出让AI自己写Harness的Meta-Harness方案,整个行业正在形成一个新共识:
模型能力决定了天花板,但Harness决定了你能在多长时间里稳定地够到那个天花板。
AI落地不只是一道算法题,更是一道工程题,同样的模型能力下,不同的脚手架设计对实际使用效果和成本影响非常大。
换句话说,Agent能不能干活,不完全看模型有多聪明,更要看你怎么让它听话、怎么让它不跑偏、怎么让它在对话窗口关掉之后还能继续跑。
看到硅谷的CREAO团队,在Agent Harness这个赛道上,拿出了全球第一个真正面向普通用户的答案。
![]()
官网:https://creao.ai/
01为什么是Harness Engineering
先花几分钟把Harness这个东西说清楚。
这个词在中文里最贴切的翻译大概是“驾驭工程”或者“脚手架工程”。
它不算是一个新的算法或者模型架构,是一整套让AI Agent稳定执行复杂任务的工程框架。
你把它理解成AI的操作系统也可以。
![]()
OpenAI那篇引爆行业讨论的博客里讲了一个实验:
一个只有三名工程师的小团队,用Codex Agent在五个月内生成了超过一百万行生产级代码,合并了约一千五百个Pull Request,整个过程中没有一行代码是人类手写的。
但这个数字本身不是重点,重点是团队事后复盘得出的结论:Agent不难,Harness才难。
后续的实验中得到了反复验证。
SWE-Bench Mobile的论文里有一个非常扎眼的数据:同一个Claude Opus 4.5模型,在不同Harness配置下的编程基准成功率分别是百分之二和百分之十二,差了整整六倍。
LangChain的编码Agent在Terminal Bench 2.0上,只优化了Harness而没有动任何模型底层代码,得分从百分之五十二点八跃升到百分之六十六点五,排名直接从第三十位冲到了第五位。
换句话说,你在AI身上花了多少钱搞模型,跟你花多少心思设计它的运行框架,两者之间的投入产出比可能完全不在一个量级上。
2026年整个AI行业的焦点,正在从模型本身向模型之外的东西转移。
大模型的基础能力在飞速提升,已经超过了普通人的平均水平,AI Agent也能自主执行多步骤的长任务了。
但问题变成了:怎么让这些Agent在生产环境里稳定跑完不翻车?
![]()
这就是Harness要回答的问题,也是CREAO这家公司切入赛道的逻辑起点。
02CREAO怎么用
打开CREAO,非常简洁,和其他Agent给人的感觉都不一样:
![]()
从Feed、Agents、Workspaces到Files再到Agent Brain,逻辑很清晰,上手很简单。
用惯Claude Code、OpenClaw或者其他Agent的朋友,乍一看可能觉得CREAO很亲切,它很自然地融入了各项能力,而且很可靠可控。
但是用的更深入后,会发现因为对Harness的理解,CREAO很像处女座,很细节控,给人的体验很细腻。
![]()
一点开就能看到,如何创建记忆、如何创建Agent,这些问题是引导充分的,上手用就可以。
相比有些Agent的memory、soul等设定,CREAO给我的第一感觉是,上手很容易,用法非常简单。
![]()
我试着让CREAO给我做一个多Agent分工协作的数据看板,诉求非常贴合我的Agent个性用法,功能要求也很综合。
![]()
Harness的核心价值,在于解决AI执行复杂任务时的失控问题。
像ChatGPT,它很能聊,但你要让它帮你做一个需要持续监控、定时运行、跨多个工具协同的事情,就需要Claude Code或者更多个性手段了。
聊天窗口一关,所有的执行就跟着消失了。
这就是典型的Harness缺失,模型有意图理解能力,但没有一个让它持久运行的框架。
![]()
创建智能体,实际的效果也很让人惊喜。
有主动式的引导提问,辅助我来把智能体建的更满足心意。
创建完成后的智能体,后续也会成为随时调用的角色对象,能融入到日常的工作流里。
![]()
还尝试做了一个新闻Agent,每天帮我定时整理AI资讯。
比较让人欣喜的是,CREAO默认用的是Claude Sonnet 4.6,还能选Opus,效果比很多模型好的不止一点半点,再加上很多Agent设计的优化,让人使用体验非常流畅愉悦。
![]()
除了定时的能力,还会和「AI异类弗兰克研究Agent」联动起来,定期采集更符合我需求的高价值信息。
所以用上了CREAO之后,它真的成了我每天甚至每个小时都会打开的产品,时不时就想看看任务完成的怎么样、有没有主动给我带来一些新进展。
![]()
还有一些很日常的小任务,效果也不错。
比如我想给自己的「AI异类弗兰克」媒体品牌,升级一下品牌Logo。
![]()
生成的logo效果还不错,风格很多样。
我尤其喜欢后来生成的简洁扁平无衬线的版本,已经计划用在我的未来各种对外露出场景里。
![]()
![]()
做数据看板,想让监测一下我的公众号运营情况。
这个需求不算复杂,但上限很高,能把数据动态呈现并且可视化做的好的,CREAO算是独一份。
![]()
做视频,我也尝试了一下。
用我自己的头像作为人物IP,生成了一段简单的个人动漫视频。
可以说,如果单单把CREAO作为一个Agent来理解,很全面、很强大、很周到,常见的使用场景里,效果都不错。
以上案例测下来,我觉得这是一个对用户来说非常友好、细节很到位的产品。
但是这还不足以让CREAO能在硅谷、在投资圈这么受欢迎。
CREAO还做对了什么呢?
03CREAO到底做对了什么
CREAO是最近这段时间,在硅谷正式发布了新一代产品。
发布当天,CREAO在X平台上连续五个小时霸占全球热搜榜单前三名, 话题下涌入了来自北美、欧洲、东南亚、拉美等地区的大量科技创作者和开发者。
全球超过五十位头部科技KOL几乎同步发布了深度体验内容,覆盖英语、西班牙语、葡萄牙语、韩语等多个语种市场,形成了一个非常少见的多语种自来水的传播效应。
![]()
仔细一研究,发现这支团队也不是一夜之间冒出来的。
CREAO总部位于硅谷,核心团队汇聚了来自Google、Meta等硅谷一线大厂的华人AI精英,以及国内头部大模型创业公司和明星互联网企业的技术骨干,是一支国际化的复合型团队。
公司的融资节奏也相当凌厉:成立不到一年就连续完成了两轮数千万美金的融资。
我就更好奇了:CREAO到底凭什么,能同时让全球的开发者和投资人,给出这样的反应?
一句话来形容:CREAO是全球第一个真正面向普通用户的AI Agent Harness。
他们自己做了一个叫Super Agent的东西,本质上就是一个Agent驯化系统;
用户用自然语言描述一个工作流程,系统自动理解意图、编写执行代码、连接各种工具平台、实时执行、一键保存为可复用的Agent、然后按设定的时间表自动运行。
听起来好像就是一个自动化工具?
不,这里面的差异远比看上去要大得多。
OpenClaw、Claude Code、Devin这些产品能力很强,但都需要一定的编程理解力,面向的是开发者。
ChatGPT和Claude虽然交互简单,但本质上只是聊天窗口,关掉之后就没有了,无法持久执行任何任务。
n8n和Zapier这类自动化工具虽然功能丰富,但需要大量手动配置,每一步都要人工介入,缺乏AI对意图的理解能力。
中间存在一个巨大的真空地带:一个既能理解自然语言,又能真正持久执行任务的消费级产品。
CREAO填的就是这个空白。
![]()
假设说,想让AI帮你做这样一件事:每周一早上九点,扫描三个竞品网站的价格变动,记录到Google Sheets里,如果价格波动超过百分之十就在Slack上通知你。
用OpenClaw,你需要自己配置运行环境、处理各种技术细节。
但用CREAO,你只需要用自然语言把这个需求描述出来,剩下的全部交给系统。
它自动理解你的意图、编写执行代码、连接Gmail和Google Sheets和Slack等工具平台,你可以看着它完成整个流程,一键保存为可复用的Agent,然后按你的时间表定时自动运行。
对话结束之后,系统还在运行。这是CREAO和所有聊天式AI产品的根本区别。
04跨国精英团队对消费级AI Agent的重新定义
CREAO的核心团队配置在今天的AI创业圈子里算是相当硬核的。
创始人兼CEO程凯的履历本身就很有故事性。
他拥有加拿大多伦多大学数学学士和美国哥伦比亚大学统计学硕士学位。
毕业后他在iPerceptions担任数学科学家,为戴尔、NASA、康卡斯特等公司开发过机器学习算法,入选过福布斯中国三十岁以下精英榜。
![]()
这不是程凯第一次创业。
他之前创立的语忆科技,是一家专注于用户体验管理与消费者洞察的AI公司,累计服务超过三百家品牌客户,并且实现盈利。
在上⼀轮企业AI浪潮中,已经验证过从 0–1 到商业化闭环的能⼒。
联合创始人兼CTO Peter P.的履历也相当扎实。
他之前在Meta任职近六年,隶属于GenAI团队,参与过LLaMA体系下的Agentic系统相关研究。
再往前,他还在苹果担任过机器学习工程师,做NLP和迁移学习方向的工作。
CPO Clark,兼具数据科学、产品、战略与创业经验。
曾在硅⾕两家创业公司担任创始团队核⼼成员,横跨中美市场与多种业态,对早期产品从 0–1、市场验证与融资节奏有⼀线实战经验。商业化能力非常强。
三位联合创始人,一位做底层模型出身的CTO,一位资深产品操盘和商业化经验的CPO,一位连续创业且有成功经历的CEO……技术、产品、商业化,三要素齐全而且充分闭环了。
这种组合,在Agent基础设施这个方向上,其实很稀缺,尤其这样高包容度、高整合能力的团队。
CREAO整个团队的构成很多元,来自中国、美国、加拿大、印度等多个国家;核心成员的履历涵盖硅谷大厂的AI研发经验,也有海内外头部互联网公司的产品落地经验。
这种国际化复合型背景,让他们在技术理解和产品体验之间,找到了一条不同于纯粹硅谷创业公司的路径。
能感觉到,CREAO团队对C端平台级产品体验,有一种近乎执念的追求。
他们花了很长时间解决:如何让AI的输出在对话结束后依然存活。
代码生成的确定性、多工具编排的稳定性、用户心智模型的重新设计,每一个环节都需要反复打磨。
而CREAO团队,恰恰在这个维度上做出了全球范围内的优解。
05从技术驱动到体验驱动的范式转换
4月初,Anthropic因为npm包打包失误,导致Claude Code大约五十一万行源代码被泄露,包含了四千七百多个源文件、四十多个工具模块以及多项未发布的功能。
虽然这次泄露没有涉及模型权重和用户数据,但Claude Code的架构、提示词及工具调用机制全部暴露在了公众面前,包括Kairos持久进程、卧底模式等未公开功能。
这一事件在开发者社区引发的讨论很有意思。
有人担心安全和竞争问题,但也有不少观点认为这次泄露反而会加速整个AI Agent行业的研发进度——因为大家终于有机会看到Anthropic这种级别的团队是怎么做Harness设计的。
而Claude Code团队在内部早就坚持一个理念:所有秘密武器在模型本身,Harness应该追求最薄的包装。
Claude Code这个选择本身说明了一个问题:Harness的厚度不是静态的。
当模型能力足够强的时候,Harness应该被剥离和简化。Anthropic为Opus 4.5设计了一套相当厚重的Harness方案——GAN式对抗架构、三Agent分工、sprint合约。
但Opus 4.6出来之后,Harness直接做了减法:去掉sprint分解、整体简化,运行时间从六小时降到三点八小时,成本从两百美元降到一百二十五美元,性能反而更好。
这套操作被称为Build to Delete——Harness的厚度取决于模型当前的能力边界,模型变强了,对应的Harness就应该被剥离。
CREAO的思路和这个逻辑是相通的。
![]()
他们的Super Agent本质上是一个面向普通用户的Harness系统,让非技术背景的人也能建立和驯化自己的自动化系统。
随着底层模型能力的持续提升,这套Harness的复杂度也会逐步下降,最终无限接近用户直觉——就像智能手机的触摸屏最终成为所有人都能自然使用的交互方式。
CREAO产品发布后在海外资本市场引起广泛关注,说实话,我一点也不意外。
Agent赛道从2024年到2026年已经经历了从概念炒作到技术验证再到商业落地的完整周期。
中信建投最近的研报也明确提到,Agent的任务交付能力正在变得越来越强,除模型能力提升外,Agent Harness是重要的驱动因素,看好2026年Agent快速落地。
AI Agent这个赛道正在经历从技术驱动到体验驱动的范式转换。
过去两年所有人都在卷模型能力、卷Agent框架、卷开发者工具,但最终能跑出来的消费级AI产品,一定是让普通人也能建立并驯化自己的自动化系统的那一个。这就像2007年的iPhone——不是因为触摸屏技术最先进,而是因为它第一次让普通人可以直觉地使用智能手机。
CREAO正在做同样的事。
让AI Agent从开发者专属工具,驯化成每个人的执行系统。
而这个产品,出自一支扎根硅谷、融合中美顶尖AI人才的团队。
他们用了一年的时间,把Agent Harness从一个硬核的技术概念,变成了一个普通人打开网页就能用的消费级产品。这个方向上的探索才刚刚开始,但方向本身已经不需要再被验证了。
接下来的十二个月,也许我们会看到更多类似CREAO的产品出现。
Agentic Harness会成为AI基础设施层最核心的竞争领域之一,而谁能在降低使用门槛的同时保持执行可靠性,谁就能真正占领这个市场。
不是技术最复杂的产品赢,而是让普通人用得上的产品赢。这个道理在每一轮技术浪潮里都被反复验证过,这一次也不会例外。