Claude Code可靠性遭质疑,开发者反映复杂工程任务推理能力下滑

🤖 AI总结

主题

关于AI编程助手Claude Code因算力限制导致推理能力回退的问题。

摘要

AI编程助手Claude Code因算力瓶颈出现推理能力回退,分析师指出这是行业普遍的结构性挑战,未来或通过分级付费和提升透明度来解决。

关键信息

  • 1 Claude Code在处理复杂工程任务时出现推理能力下滑,倾向于给出表面答案。
  • 2 分析师认为根本原因是用户增长带来的算力与成本压力,迫使系统限制推理深度。
  • 3 此问题可能动摇开发者信心,促使行业探索分级付费和更透明的资源分配机制。

Claude Code可靠性遭质疑,开发者反映复杂工程任务推理能力下滑

当一款编程助手开始显现出敷衍了事的迹象时,开发者很快便会察觉。AMD AI集团的一位高级总监公开批评Anthropic旗下的Claude Code,称其在处理复杂问题时存在”跳过难点”的倾向——给出的答案表面上说得过去,实则经不起推敲。

这一问题的核心并非工具彻底失效,而是其严谨性的逐步退化。复杂问题所引发的回复往往更快、更轻描淡写,急于”交差了事”。这迫使这位高级主管及其团队不得不停止将该工具用于调试硬件和内核级问题等复杂工程任务。

上述问题由Stella Laurenzo在一份GitHub Issues提单中详细记录。她在其中指出,该工具在今年2月的一次更新之后,可能在复杂任务推理能力方面出现了质量回退问题。

这份提单源于她对6,852个会话文件中17,871个思考块及234,760次工具调用所做的定量分析,时间跨度为今年1月至3月,涵盖更新前后两个时段,以便进行对比。

Laurenzo在分析中指出,由于推理能力下降,模型在修改代码之前逐渐不再完整阅读代码。

她在提单中写道:”当思考流于表面时,模型会默认采取成本最低的操作:不读代码直接修改、未完成任务便停下、对失败推卸责任、选择最简单而非最正确的修复方案。”

Laurenzo补充道,推理能力的退化对她的团队而言是一大障碍,因为这直接影响到超过50个并发智能体会话——这些会话涉及C语言和GPU驱动程序的系统编程,以及历时30分钟以上、包含复杂多文件改动的自主运行任务。

提出类似问题的并非只有Laurenzo一人。多名用户在该提单下留言,表示遭遇了与她及其团队相似的情况。另有用户指出,多个Reddit子版块也出现了类似的性能退化讨论,该评论在GitHub上同样获得了众多开发者的点赞支持。

这一日益高涨的投诉声浪引起了分析师的关注,他们将问题归因于Anthropic尚处发展阶段的算力瓶颈。

Avasant研究总监Chandrika Dutt表示:”这本质上是算力和成本问题。复杂的工程任务需要消耗大量计算资源,包括中间推理步骤。随着使用量的攀升,系统已无法为每一个请求维持如此高强度的算力投入。”

她进一步解释:”因此,系统开始限制任务的运行时长、推理深度以及可同时处理的任务数量。”

这并非Anthropic首次面临Claude Code的算力瓶颈问题。上个月,Anthropic已开始限制旗下Claude各订阅套餐的使用量,以应对持续增长的需求对算力的压榨。当时的逻辑是:通过加快用户在时间窗口内触达会话上限的速度,Anthropic能够有效重新分配访问资源,防止系统过载,同时维持整体的周度使用配额。

与推理能力回退问题如出一辙,开发者对Claude Code施加的速率限制措施同样反应强烈,认为这些限制严重削弱了工具的实用价值。

分析师指出,速率限制与推理能力回退这两大问题叠加,可能会动摇开发者对该平台的信心。这不会导致用户大规模出走,但会悄然消耗其势头,并促使企业用户寻求其他替代方案以分散风险。

Greyhound Research首席分析师Sanchit Vir Gogia表示:”这不是那种用户一夜之间转身离去的时刻,它比那种情况更隐蔽,也更危险。真正发生的是一种悄然转变——开发者在面临高风险任务时,对系统的信任度正在降低。抱怨最为强烈的,恰恰是那些已开始依赖该系统处理严肃、多步骤、长会话工程工作的团队。”

Gogia进一步指出:”发生变化的不仅是输出质量,还有系统在生成输出过程中的行为方式。从审慎的逐步推理到更快速、更被动的执行——这种漂移清晰可见。这会形成一种恶性循环:工程师不得不更频繁地介入和打断,最终亲自承担本应由系统处理的思考工作。”

他认为,上述变化将迫使团队将复杂或关键任务转移至其他工具,仅将简单任务留给Claude处理。久而久之,该平台的定位将从主力工具沦落为备选工具。

正如Laurenzo在GitHub提单中所透露的,她本人也正走上Gogia所预言的这条路——暂时放弃Claude Code,等待Anthropic修复问题,转而使用一款未透露名称的竞品。

不过,Avasant的Dutt对Laurenzo这一抉择在长远效果上并不乐观。她指出,竞品可能同样面临与Anthropic相似的算力约束:”所有前沿模型都在相同的GPU和成本限制下运作。随着使用规模的扩大,所有服务提供商都将不得不引入限流机制、分级访问模式,并在速度、成本与推理深度之间做出取舍。这在结构上是必然趋势。”

推理能力回退问题尤为如此。该分析师认为,在大规模场景下维持深度推理是一项艰巨挑战,并援引近期SWE-EVO 2025关于AI编程智能体的基准测试加以佐证——数据显示,在多步骤任务中,成功率急剧下滑,失败率通常在60%至80%之间,在执行密集型场景中尤为突出。

不过,作为一项补救建议,Laurenzo对Anthropic能够自我纠偏持乐观态度,她甚至在提单中建议该公司推出高级付费层级,允许用户为更强的推理算力买单。

Dutt和Gogia均表示,这一方向可能很快成真,因为整个行业正朝着消费模式演进——基础使用与高强度、推理密集型工作负载将被区别对待。

分析师们同样支持Laurenzo向Anthropic提出的另一项建议——提高Token分配机制的透明度。

Gogia表示:”用户需要了解系统在底层究竟做了什么。不必事无巨细,但至少要足以判断系统是真正推理了一个问题,还是仅仅给出了一个快速答案。如今,用户只能从结果中推断,这正是为什么会有用户去分析日志和行为模式。这本不应该是用户的负担。”

目前,Anthropic尚未回应Laurenzo的GitHub提单,也未将其分配给任何处理人。

而对于那些期待快速解决算力问题的人来说,可能需要调低预期——至少要等到2027年。届时,由博通代工的谷歌TPU芯片将加入Anthropic的服务器集群。在更多GPU到位、或公司决定以更高定价确定使用权归属之前,开发者或许只能一边刷新讨论帖,一边眼看着Token被配给,静待推理能力的回归。

Q&A

Q1:Claude Code推理能力回退问题是如何被发现的?

A:AMD AI集团高级总监Stella Laurenzo通过对6,852个会话文件中17,871个思考块及234,760次工具调用进行定量分析,覆盖今年1月至3月(含更新前后两个时段),发现Claude Code在2月更新后出现推理能力下滑迹象,具体表现为模型在修改代码前不再完整阅读代码,倾向于给出更快、更浅显的答案,而非经过深度推理的准确解答。

Q2:为什么Claude Code会出现推理能力下滑?

A:分析师认为根本原因在于算力和成本压力。随着用户规模扩大,复杂工程任务所需的大量算力(包括中间推理步骤)难以为每个请求持续提供。为避免系统过载,系统会限制任务运行时长、推理深度以及并发任务数量,导致输出质量出现退化。

Q3:开发者面对Claude Code的限制,有哪些应对建议?

A:分析师和用户均提出了几点建议:一是Anthropic应推出高级付费层级,让有需求的用户为更强推理算力付费;二是提高Token分配机制的透明度,让用户了解系统在底层的推理情况;三是在Anthropic修复问题期间,可将复杂工程任务转移至其他工具处理,以降低对单一平台的依赖风险。

© 版权声明

相关文章