PokerStars扑克官网

Agent 必要“油表”和“刹车”:一篇论文 ,扒光了 Agent 的“糊涂账”

设想一下这个场景:

作者:李威爱
颁布功夫:2026-05-29 01:53:04
阅读量:5

Agent 必要“油表”和“刹车”:一篇论文 ,扒光了 Agent 的“糊涂账”

设想一下这个场景:

你让 AI Agent 助你建一个代码 Bug 。它打开项目 ,读了 20 个文件 ,改了改 ,跑了一下测试 ,没过 ,又改 ,又跑 ,还是没过……来回折腾了十几轮 ,终于——还是没建好 。

你关掉电脑 ,松了口气 。而后收到了 API 账单 。

上面的数字可能让你倒吸一口凉气——AI Agent 自主建 Bug 在海表官方 API 下 ,单次未建复工作常烧掉百万以上 Token ,用度可达几十至一百多美元 。

2026 年 4 月 ,一篇由斯坦福、MIT、密歇根大学等结合颁布的钻研论文 ,第一次系统性地打开了 AI Agent 在代码工作中的“消费黑箱”——钱到底花在哪了、花得值不值、能不能提前预估 ,答案令人震惊 。

发现一:Agent 写代码的烧钱速度 ,是通常 AI 对话的 1000 倍

各人可能感触 ,让 AI 助你写代码和让 AI 跟你聊代码 ,花的钱应该差不多吧?

论文给出对比显示:

Agentic 编码工作的 Token 亏损量 ,是通常代码问答和代码推理工作的 约 1000 倍 。

差了整整三个数量级 。

为什么会这样?论文指出了一个事实——钱不是花在“写代码”上 ,而是花在“读代码”上 。

这里的“读”不是指人类读代码 ,而是 Agent 在工作过程中 ,必要不休地把整个项主张高低文、汗青操作纪录、报错信息、文件内容一股脑儿“喂”给模型 。每多一轮对话 ,这个高低文就变得更长一轮;而模型是按 Token 数量计费的——你喂得越多 ,付得越多 。

打个譬喻:这就像请了一个建理工 ,他每动一下扳手之前 ,都要你把整栋楼的图纸重新想一遍给他听——想图纸的钱 ,远比拧螺丝的钱贵得多 。

论文把这个景象总结为一句话:驱动 Agent 成本的 ,是输入 Token 的指数级增长 ,而非输出 Token 。

发现二:统一个 Bug ,跑两次 ,破费能差一倍——并且越贵的 Bug 越不不变

更让人头疼的是随机性 。

钻研者让统一个 Agent 在统一个工作上跑了 4 次 ,了局发现:

在分歧工作之间 ,最贵的工作比最便宜的工作多烧约700 万个 Token(Figure 2a)统一模型、统一工作的屡次运行中 ,最贵的一次约莫是最便宜的一次的2 倍(Figure 2b)而若是跨模型对比统一个工作 ,最高亏损和最低亏损之间能够相差高达30 倍

最后一个数字尤其值得关注:这意味着 ,选对模型和选错模型之间的成本差距 ,不是“贵一点” ,而是“贵出一个数量级” 。

更扎心的是——花得多 ,不代表做得好 。

论文发现了一个“倒 U 型”曲线:

成本水平正确率趋向低成本正确率较低(可能投入不够)中等成本正确率往往最高高成本正确率不升反降 ,进入"鼓和区间"

为什么会这样?论文通过度析 Agent 的具体操作给出了答案——

高成本的运行中 ,Agent 大量功夫花在了“沉复劳动”上 。

钻研发现 ,在高成本运行中 ,约50% 的文件查看和文件批改操作是沉复的——也就是说 ,Agent 在反复读统一个文件、反复改统一行代码 ,像一幼我在房间里转圈 ,越转越晕 ,越晕越转 。

钱没花在解决问题上 ,花在了“迷途”上 。

发现三:模型之间“能效比”天壤之别——GPT-5 最省 ,有的模型多烧 150 万 Token

论文在业界尺度的SWE-bench Verified(500 个真实 GitHub Issue)上 ,测试了 8 个前沿大模型的 Agent 阐发 ;凰愠擅涝 ,Token效能高的模型每个工作能够多花几十块的区别 。放到企业级利用——一天跑几百个工作——差距就是真金白银 。

更有意思的一个发现是:Token 效能是模型的“固有脾气” ,而非工作使然 。

钻研者把所有模型都成功解决的工作(230 个)和所有模型都失败的工作(100 个)别离拿出来比力 ,发现模型的相对排名险些没有变动 。

这注明:有些模型天生就“话多” ,跟工作难度关系不大 。

还有一个令人沉思的发现:模型不足“止损意识” 。

在面对所有模型都无法解决的难题工作时 ,梦想的 Agent 应该尽早烧毁 ,而不是持续烧钱 。但现实是 ,模型普遍在失败工作上亏损了更多的 Token——它们不会“认输” ,只会持续索求、沉试、沉读高低文 ,像一台没有油表警示灯的汽车 ,一路开到抛锚 。

发现四:人类感触难的 ,Agent 不愿定感触贵——难度感知齐全错位

你可能会想:那至少我能够凭据工作的难易水平来预估成本吧?

论文找来人类专家 ,对 500 个工作的难度进行评分 ,而后和 Agent 的现实 Token 亏损做对比——

了局:两者之间只有弱有关 。

用大口语说:人类感触可贵要死的工作 ,Agent 可能轻松搞定不怎么花钱;人类感触幼菜一碟的工作 ,Agent 可能烧到疑惑人生 。

这是由于人和 AI “看到”的难度底子不是一回事:

人类看的是:逻辑复杂度、算法难度、业务理解门槛Agent 看的是:项目有多大、要读几多文件、索求蹊径有多长、会不会反复批改统一个文件

一幼我类专家感触“改一行就杏妆的 Bug ,Agent 可能要先读懂整个代码库的结构能力定位到那一杏转—光是“读”就要烧掉大量 Token 。而一幼我类感触“逻辑很绕”的算法问题 ,Agent 可能刚好知路尺度解法 ,三下五除二就搞定了 。

这就导致了一个狼狈的现实:开发者险些不成能凭直觉预估 Agent 的运行成本 。

发现五:连模型自己都算禁绝自己要花几多钱

既然人算禁绝 ,那让 AI 自己来预测呢?

钻研者设计了一个精彩的尝试:让 Agent 在真正起头建 Bug 之前 ,先“ inspect”一下代码库 ,而后预估自己必要亏损几多 Token——但不现实执行建复 。

了局若何?

所有模型 ,全军覆没 。

最好的成就是 Claude Sonnet-4.5 对输出 Token 的预测有关性——0.39(满分 1.0) 。无数模型的预测有关性只有 0.05 到 0.34 之间 ,Gemini-3-Pro 最低 ,仅为0.04——根基蹬宗瞎猜 。

更离谱的是:所有模型都系统性低估了自己的 Token 亏损 。Figure 11 的散点图中 ,险些所罕见据点都落在“美满预测线”的下方——模型感触自己“花不了那么多” ,现实上花了更多 。并且这个低估误差在不提供示例的情况下越发严沉 。

更嘲讽的是——预测自身也要花钱 。

Claude Sonnet-3.7 和 Sonnet-4 的预测成本甚至高达工作自身成本的2 倍以上 。也就是说 ,让它们先“估个价” ,比直接干活还贵 。

论文的结论斩钉截铁:

现阶段 ,前沿模型无法正确预测自身的 Token 用量 。点下“运行 Agent” ,就像开盲河转—账单出来才知路花了几多 。这笔“糊涂账”背后 ,藏着一个更大的行业问题

读到这 ,你可能会问:这些发现对企业意味着什么?

1. “按月订阅”的定价模式 ,在被 Agent 撕开裂缝

论文指出 ,像 ChatGPT Plus 这样的订阅造之所以可行 ,是由于通常对话的 Token 亏损相对可控、可预测 。但 Agent 工作齐全突破了这一如果——一个的工作可能由于 Agent 陷入循环而烧掉巨量 Token 。

这意味着 ,纯正的订阅造定价对 Agent 场景可能不成持续 ,按量计费(Pay-as-you-go)在相当长功夫内仍是最现实的选项 。但按量计费的问题在于——用量自身就不成预测 。

2. Token 效能应该成为选模型的“第三指标”

传统上 ,企业选模型看两个维度:能力(能不能干)和速度(干得快不快) 。这篇论文给出了第三个一致沉要的维度:能效(花几多能力干成) 。

一个能力略逊但效能高 3 倍的模型 ,在规;【跋驴赡鼙取白钋康罘选钡哪P透芯眉壑 。

3. Agent 必要“油表”和“刹车”

论文提到一个值得关注的未来方向——Budget-aware tool-use policies(预算感知的工具使用战术) 。单一说就是给 Agent 装一个"油表":当 Token 亏损靠近预算时 ,强造它终场无效索求 ,而不是一路烧到底 。

目前 ,险些所有主流 Agent 框架都不足这种机造 。

Agent 的“烧钱问题” ,不是 Bug ,而是行业必经的阵痛

这篇论文揭示的并非某个模型的缺点 ,而是整个 Agent 范式的结构性挑战——当 AI 从“一问一答”进化到“自主规划、多步执杏注反复调试” ,Token 亏损的不成预测性险些是一种必然 。

好新闻是 ,这是第一次有人系统性地把这笔糊涂账翻出来算 。有了这份数据 ,开发者能够更明智地选择模型、设置预算、设计止损机造;模型厂商也有了一个新的优化方向——不只是做得更强 ,还要做得更省 。

终于 ,在 AI Agent 真正走入千行百业的出产环境之前 ,每一分钱花得明领略白 ,比每一行代码写得漂美丽亮 ,更沉要 。(本文首发钛媒体APP ,作者 | 硅谷Tech news ,编纂 | 赵虹宇)

注:本文基于 2026 年 4 月 24 日颁发于 arXiv 的预印本论文 *How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks*(Bai, Huang, Wang, Sun, Mihalcea, Brynjolfsson, Pentland, Pei)撰写 。作者来自弗吉尼亚大学、斯坦福大学、MIT、密歇根大学等机构 。该钻研尚未经同业评审 。

 

文章点评

未查问到任何数据!

颁发评论

◎欢迎参加会商 ,请在这里颁发您的见解、互换您的概想 。

最新文章

热点文章

随机推荐

【网站地图】