PokerStars扑克官网

Agent 必要“油表”和“刹车”：一篇论文，扒光了 Agent 的“糊涂账”

设想一下这个场景：

作者：李威爱

颁布功夫：2026-05-29 01:53:04

Agent 必要“油表”和“刹车”：一篇论文，扒光了 Agent 的“糊涂账”

设想一下这个场景：

你让 AI Agent 助你建一个代码 Bug。它打开项目，读了 20 个文件，改了改，跑了一下测试，没过，又改，又跑，还是没过……来回折腾了十几轮，终于——还是没建好。

你关掉电脑，松了口气。而后收到了 API 账单。

上面的数字可能让你倒吸一口凉气——AI Agent 自主建 Bug 在海表官方 API 下，单次未建复工作常烧掉百万以上 Token，用度可达几十至一百多美元。

2026 年 4 月，一篇由斯坦福、MIT、密歇根大学等结合颁布的钻研论文，第一次系统性地打开了 AI Agent 在代码工作中的“消费黑箱”——钱到底花在哪了、花得值不值、能不能提前预估，答案令人震惊。

发现一：Agent 写代码的烧钱速度，是通常 AI 对话的 1000 倍

各人可能感触，让 AI 助你写代码和让 AI 跟你聊代码，花的钱应该差不多吧？

论文给出对比显示：

Agentic 编码工作的 Token 亏损量，是通常代码问答和代码推理工作的约 1000 倍。

差了整整三个数量级。

为什么会这样？论文指出了一个事实——钱不是花在“写代码”上，而是花在“读代码”上。

这里的“读”不是指人类读代码，而是 Agent 在工作过程中，必要不休地把整个项主张高低文、汗青操作纪录、报错信息、文件内容一股脑儿“喂”给模型。每多一轮对话，这个高低文就变得更长一轮；而模型是按 Token 数量计费的——你喂得越多，付得越多。

打个譬喻：这就像请了一个建理工，他每动一下扳手之前，都要你把整栋楼的图纸重新想一遍给他听——想图纸的钱，远比拧螺丝的钱贵得多。

论文把这个景象总结为一句话：驱动 Agent 成本的，是输入 Token 的指数级增长，而非输出 Token。

发现二：统一个 Bug，跑两次，破费能差一倍——并且越贵的 Bug 越不不变

更让人头疼的是随机性。

钻研者让统一个 Agent 在统一个工作上跑了 4 次，了局发现：

在分歧工作之间，最贵的工作比最便宜的工作多烧约700 万个 Token（Figure 2a）统一模型、统一工作的屡次运行中，最贵的一次约莫是最便宜的一次的2 倍（Figure 2b）而若是跨模型对比统一个工作，最高亏损和最低亏损之间能够相差高达30 倍

最后一个数字尤其值得关注：这意味着，选对模型和选错模型之间的成本差距，不是“贵一点”，而是“贵出一个数量级”。

更扎心的是——花得多，不代表做得好。

论文发现了一个“倒 U 型”曲线：

成本水平正确率趋向低成本正确率较低（可能投入不够）中等成本正确率往往最高高成本正确率不升反降，进入"鼓和区间"

为什么会这样？论文通过度析 Agent 的具体操作给出了答案——

高成本的运行中，Agent 大量功夫花在了“沉复劳动”上。

钻研发现，在高成本运行中，约50% 的文件查看和文件批改操作是沉复的——也就是说，Agent 在反复读统一个文件、反复改统一行代码，像一幼我在房间里转圈，越转越晕，越晕越转。

钱没花在解决问题上，花在了“迷途”上。

发现三：模型之间“能效比”天壤之别——GPT-5 最省，有的模型多烧 150 万 Token

论文在业界尺度的SWE-bench Verified（500 个真实 GitHub Issue）上，测试了 8 个前沿大模型的 Agent 阐发；凰愠擅涝，Token效能高的模型每个工作能够多花几十块的区别。放到企业级利用——一天跑几百个工作——差距就是真金白银。

更有意思的一个发现是：Token 效能是模型的“固有脾气”，而非工作使然。

钻研者把所有模型都成功解决的工作（230 个）和所有模型都失败的工作（100 个）别离拿出来比力，发现模型的相对排名险些没有变动。

这注明：有些模型天生就“话多”，跟工作难度关系不大。

还有一个令人沉思的发现：模型不足“止损意识”。

在面对所有模型都无法解决的难题工作时，梦想的 Agent 应该尽早烧毁，而不是持续烧钱。但现实是，模型普遍在失败工作上亏损了更多的 Token——它们不会“认输”，只会持续索求、沉试、沉读高低文，像一台没有油表警示灯的汽车，一路开到抛锚。

发现四：人类感触难的，Agent 不愿定感触贵——难度感知齐全错位

你可能会想：那至少我能够凭据工作的难易水平来预估成本吧？

论文找来人类专家，对 500 个工作的难度进行评分，而后和 Agent 的现实 Token 亏损做对比——

了局：两者之间只有弱有关。

用大口语说：人类感触可贵要死的工作，Agent 可能轻松搞定不怎么花钱；人类感触幼菜一碟的工作，Agent 可能烧到疑惑人生。

这是由于人和 AI “看到”的难度底子不是一回事：

人类看的是：逻辑复杂度、算法难度、业务理解门槛Agent 看的是：项目有多大、要读几多文件、索求蹊径有多长、会不会反复批改统一个文件

一幼我类专家感触“改一行就杏妆的 Bug，Agent 可能要先读懂整个代码库的结构能力定位到那一杏转—光是“读”就要烧掉大量 Token。而一幼我类感触“逻辑很绕”的算法问题，Agent 可能刚好知路尺度解法，三下五除二就搞定了。

这就导致了一个狼狈的现实：开发者险些不成能凭直觉预估 Agent 的运行成本。

发现五：连模型自己都算禁绝自己要花几多钱

既然人算禁绝，那让 AI 自己来预测呢？

钻研者设计了一个精彩的尝试：让 Agent 在真正起头建 Bug 之前，先“ inspect”一下代码库，而后预估自己必要亏损几多 Token——但不现实执行建复。

了局若何？

所有模型，全军覆没。

最好的成就是 Claude Sonnet-4.5 对输出 Token 的预测有关性——0.39（满分 1.0）。无数模型的预测有关性只有 0.05 到 0.34 之间，Gemini-3-Pro 最低，仅为0.04——根基蹬宗瞎猜。

更离谱的是：所有模型都系统性低估了自己的 Token 亏损。Figure 11 的散点图中，险些所罕见据点都落在“美满预测线”的下方——模型感触自己“花不了那么多”，现实上花了更多。并且这个低估误差在不提供示例的情况下越发严沉。

更嘲讽的是——预测自身也要花钱。

Claude Sonnet-3.7 和 Sonnet-4 的预测成本甚至高达工作自身成本的2 倍以上。也就是说，让它们先“估个价”，比直接干活还贵。

论文的结论斩钉截铁：

现阶段，前沿模型无法正确预测自身的 Token 用量。点下“运行 Agent”，就像开盲河转—账单出来才知路花了几多。这笔“糊涂账”背后，藏着一个更大的行业问题

读到这，你可能会问：这些发现对企业意味着什么？

1. “按月订阅”的定价模式，在被 Agent 撕开裂缝

论文指出，像 ChatGPT Plus 这样的订阅造之所以可行，是由于通常对话的 Token 亏损相对可控、可预测。但 Agent 工作齐全突破了这一如果——一个的工作可能由于 Agent 陷入循环而烧掉巨量 Token。

这意味着，纯正的订阅造定价对 Agent 场景可能不成持续，按量计费（Pay-as-you-go）在相当长功夫内仍是最现实的选项。但按量计费的问题在于——用量自身就不成预测。

2. Token 效能应该成为选模型的“第三指标”

传统上，企业选模型看两个维度：能力（能不能干）和速度（干得快不快）。这篇论文给出了第三个一致沉要的维度：能效（花几多能力干成）。

一个能力略逊但效能高 3 倍的模型，在规；【跋驴赡鼙取白钋康罘选钡哪Ｐ透芯眉壑。

3. Agent 必要“油表”和“刹车”

论文提到一个值得关注的未来方向——Budget-aware tool-use policies（预算感知的工具使用战术）。单一说就是给 Agent 装一个"油表"：当 Token 亏损靠近预算时，强造它终场无效索求，而不是一路烧到底。

目前，险些所有主流 Agent 框架都不足这种机造。

Agent 的“烧钱问题”，不是 Bug，而是行业必经的阵痛

这篇论文揭示的并非某个模型的缺点，而是整个 Agent 范式的结构性挑战——当 AI 从“一问一答”进化到“自主规划、多步执杏注反复调试”，Token 亏损的不成预测性险些是一种必然。

好新闻是，这是第一次有人系统性地把这笔糊涂账翻出来算。有了这份数据，开发者能够更明智地选择模型、设置预算、设计止损机造；模型厂商也有了一个新的优化方向——不只是做得更强，还要做得更省。

终于，在 AI Agent 真正走入千行百业的出产环境之前，每一分钱花得明领略白，比每一行代码写得漂美丽亮，更沉要。（本文首发钛媒体APP，作者 | 硅谷Tech news，编纂 | 赵虹宇）

注：本文基于 2026 年 4 月 24 日颁发于 arXiv 的预印本论文 *How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks*（Bai, Huang, Wang, Sun, Mihalcea, Brynjolfsson, Pentland, Pei）撰写。作者来自弗吉尼亚大学、斯坦福大学、MIT、密歇根大学等机构。该钻研尚未经同业评审。

　

【编纂者：赵如彦】

有关标签

感情消费催生景区NPC表演热潮从业者呼吁划清互动界限美满用工规范女生发老公日常网友：嫁了个白敬亭北京科博会机械人扎堆表国采购商：中国造作业的确当先人民日报：景区NPC别再“擦边”了

文章点评

未查问到任何数据！

颁发评论

◎欢迎参加会商，请在这里颁发您的见解、互换您的概想。

【网站地图】