🤖 AI总结
主题
通过低成本域名和维基百科编辑,成功污染AI聊天机器人的RAG层,使其输出虚假信息。
摘要
安全工程师通过12美元域名和维基百科编辑,成功污染AI聊天机器人的RAG层,揭示大语言模型信任机制漏洞,对智能体构成安全风险。
关键信息
- 1 攻击者用12美元域名和维基百科编辑,让AI相信虚假的纸牌游戏冠军。
- 2 RAG层投毒攻击门槛低,可让AI将虚假信息以权威方式呈现。
- 3 该攻击对AI智能体构成安全风险,可能诱导其执行恶意操作。
![]()
又一项实验证明,污染大语言模型的门槛低得令人担忧。
与搜索引擎不同,搜索引擎允许用户自行判断不同来源的可信度,而接入网络搜索的 AI 聊天机器人则可能将来源存疑的网页内容转化为听起来言之凿凿的答案。一个典型案例是:一位安全工程师成功让多款 AI 机器人”相信”他是一款热门德国纸牌游戏的现任世界冠军——尽管这项锦标赛根本不存在。
如果你在上周末之前查看维基百科,会看到 Ron Stoner 的名字出现在《6 Nimmt!》(英文名 Take 5)的词条页面上,被标注为 2025 年世界冠军。该词条将官方外观的 6nimmt.com 列为信息来源,而访问该网址确实能看到一篇庆祝 Stoner 夺冠的简短新闻稿。
问题在于,Stoner 本人承认,无论是维基百科上的冠军词条,还是托管这唯一”证据”的 6 Nimmt! 域名,都是他自己创建的。即便如此,当他向多款 AI 聊天机器人询问时,它们仍然告诉他:他就是世界冠军。
“我的网站没有任何独立佐证,完全是凭空捏造的,”Stoner 在博客文章中写道,”整座纸牌屋的根基,不过是我喝咖啡时花 12 美元注册的一个域名。”
换句话说,这是一次针对检索增强生成(RAG)层的投毒攻击。它并非提示词注入,但攻击的是同一个 AI 功能平面——即负责网络搜索的那一层。
正如 Stoner 所解释的,许多读者可能也早已意识到,AI 并不真正关心所引用来源的出处,而这正是他在设计这个实验时想要利用的漏洞。
“所有具备网络搜索能力的前沿大语言模型,都会将答案建立在检索排名最高的内容之上,”Stoner 写道。在这个并不存在的《6 Nimmt!》锦标赛案例中,他植入的来源是唯一的信息源,再加上维基百科赋予的表面权威性,这就成了一种万无一失的欺骗手段,足以让 AI 将谎言呈现为事实——而且这种操作简单到非技术用户也能轻松复制。
“我没有做任何新奇的事,这不过是将老派的 SEO 和虚假信息手段包裹在新的大语言模型技术与界面之中,”Stoner 在接受采访时表示,”真正改变的是:AI 现在会将这些结果以权威的方式呈现出来,而大多数用户根本不知道背后的数据管道是如何运作的。”
“大语言模型最难识别的,恰恰是它们被设计来做的事——信任文本和资源,”Stoner 在文章中指出,”答案不是’模型会自己搞清楚’,因为模型根本无法区分一个真实来源和一个我上周二刚注册的域名。就像它也搞不清楚’strawberry’这个词里到底有几个字母’r’一样。”
Stoner 在实验中揭示的问题涉及三种独立的失效模式,这些模式可能被用于比伪造纸牌游戏冠军更具破坏性的目的。
第一是检索层。任何依赖网络搜索来生成答案的大语言模型,都会继承其检索结果的可信度,而这一层可以立即导致模型输出错误信息。
第二是模型训练语料库。Stoner 表示,如果他对维基百科的修改存在足够长的时间被爬虫抓取,就可能进入模型的训练数据。该词条已于上周五他发布文章时被删除,但他早在 2025 年 2 月就完成了这次修改,这意味着在此期间爬取过维基百科的 AI 公司,都可能将这段虚构的夺冠经历纳入训练数据。
“即使维基百科的编辑事后被撤销,任何基于撤销前数据训练的模型仍然会保留我留下的’遗产’,”Stoner 写道,”语料库投毒的清理问题,截至 2026 年仍是一个真正未解决的难题。”
Stoner 表示,他计划在六个月后进行验证——届时新模型已经发布,如果在不联网的情况下模型仍然返回他的冠军头衔,就证明这个谎言已经进入了训练数据。
第三是 AI 智能体,Stoner 认为这才是真正对恶意攻击者最具吸引力的目标。
“聊天模型产生错误信息是声誉问题,而拥有工具访问权限的智能体产生错误行动则是安全问题,”他指出。通过污染智能体检索到的来源,攻击者可以指定希望智能体执行的操作。
“这次攻击和测试只用了一个 12 美元的域名、一次维基百科编辑,以及大约二十分钟的时间,”Stoner 在博客中总结道,”如果换成一个有动机的攻击者,配合几个预先布局的域名,以及针对十几篇低流量文章的协同编辑行动,攻击面会迅速变得相当可观。”
Stoner 表示,检索投毒是大语言模型服务商需要正视并向用户明确警示的问题,他预计 AI 聊天机器人在不久的将来将开始引入某种警告机制,尤其是针对 RAG 来源的结果。
他希望 AI 公司能将数据来源可信度作为核心流程要素,同时对近期网络内容进行启发式过滤,以识别可疑模式。在《6 Nimmt!》这个案例中,这类过滤本可轻易发现问题:一个引用指向的域名注册时间与维基百科词条更新时间高度吻合,理应触发警报,但实际上并没有。
这个虚假的冠军头衔已经从维基百科和 RAG 响应中消失,但 Stoner 指出,使这一切成为可能的错误信任模式依然真实存在,并将成为 AI 开发者面临的一个迫在眉睫的问题。
“我很高兴我的文章引发了关于大语言模型、信息来源、信任机制以及这一切运作方式的讨论,”Stoner 说,”这正是我的目标,而我似乎已经实现了它。”
Q&A
Q1:什么是 RAG 层投毒攻击?它和提示词注入有什么区别?
A:RAG(检索增强生成)层投毒是指攻击者通过在网络上植入虚假内容,让 AI 在检索信息时抓取并引用这些错误来源,从而输出错误答案。提示词注入则是直接在用户输入中嵌入恶意指令来操控模型行为。两者攻击的都是 AI 的信息获取环节,但 RAG 投毒针对的是外部数据源,而非模型本身的推理过程。
Q2:这次实验为什么只花了 12 美元就成功了?
A:Stoner 只需注册一个 12 美元的域名,搭建一个看起来像官方新闻稿的页面,再在维基百科上添加一条引用该域名的词条,就完成了整个攻击链。由于大语言模型在网络搜索时会直接信任检索排名靠前的内容,而不验证来源的真实性,这个”单一来源+维基百科背书”的组合足以让多款 AI 将虚假信息当作事实输出。
Q3:AI 智能体在检索投毒攻击中面临哪些特殊风险?
A:与普通聊天模型不同,AI 智能体通常拥有调用外部工具、执行实际操作的能力。如果智能体检索到被污染的来源,攻击者不仅能让它输出错误信息,还可能诱导它执行特定的恶意操作,例如发送错误指令或触发自动化流程。Stoner 指出,聊天模型产生错误信息是声誉问题,而智能体产生错误行动则是真正的安全问题。