PokerStars扑克官网

颁布于2026-05-29 07:16:37来自最新版 v7.163.8171 ·

关注

起源：台官员否定美不支持“台独”时宕机作

Token经济学：AI时期的新钱币战争

在硅谷，有了一种新的炫富方式——每天烧了几多token。

对于这个炫富方式，此刻有一个新词叫：Token-maxxing，意思是“把token用量拉到极限”。它造成了公司内表人们攀比的新方式：你每天亏损几多token、你能同时调度几多个agent运杏注你的token throughput（吞吐量）有多高，这些都在造成衡量一幼我“有多AI原生”的新指标。

不外，对于这种新较量，全球AI圈的巨头们在进行着一场强烈的争吵：公司是否应该不设限度地激励员工们去使用token？

而在这场争吵的背后，是一场萦绕token发展的新军备较量。硅谷大厂们为什么在疯狂卷token用量，这背后到底有没有路理？大模型公司是怎么给token定价的？中国模型若何凭借“物美价廉”杀入全球开发者市场，在OpenRouter上霸榜？“Token套利”的新模式，怎么来赚差价？以及在所有这些背后，一个更大的问题：中国的token出海，会不会成为下一个结构性的产业机遇？若是上一个时期中国出口的是衬衫，这个时期是电动车，下一个时期会是token吗？

（本文为视频改写，欢迎各人收看以下视频）

Token-maxxing之辩

用得越多就越好吗？

4月初，Meta被爆内部有一个名为“Claudeonomics”排行榜，这个排行榜汇集了超过85000名Meta员工的AI使用数据，列出了token亏损量最高的前250名“超等用户”。

在最近一个月，排行榜上的总使用量突破了60万亿token，若是依照Anthropic Opus 4.6的定价，约莫每百万token均匀15美元来粗略换算的话，这些token的价值高达约9亿美元。排名第一的那位员工，烧掉的token价值高达数百万美元。

这个新闻曝光之后，立马在硅谷引发了一场大争吵。

AI创业公司Writer的CEO May Habib，直接说这是“生死生死级此外问题”。她自己公司内部也有一个token亏损排行榜，并且她明确通知员工，她自己在盯这个数据。她以为若是不全力拥抱AI，就会被裁减。

Uber也很激进。目前Uber后端系统中，11%的新代码更新已经由agent实现，而三个月前这个比例还不到1%。Uber CTO的原话很直白：“我的愿景是把软件工程转型为agent软件工程。”

但否决Token-maxxing的声音同样敏感。

HubSpot的CEO Yamini Rangan，在LinkedIn上发了一句被宽泛转发的话：“Outcome maxxing>>token maxxing”。意思是，比起疯狂亏损token，不如看看你产出了什么了局。她代表了另一种沉要概想：纯正的token使用量，是一个谬误的指标。

AI软件工程公司Jellyfish的CEO Andrew Lau，说得更直白：“你能够一天到晚刷token，但得到的了局可能齐全不是你想要的。”

这两派的吵得不成开交。但更多的中央派似乎还是形成了共识：不充分利用AI的公司，会被竞争敌手超过并变得过期。在这种信想下，哪怕排行榜和激励造度不美满，哪怕一些AI使用最终被证明是浪费的，大厂首创人和高层们也被卷起来了，以为必必要这样做能力让公司转型成为更AI-native（AI原生）的公司。

自OpenClaw爆火以来，agent工作烧掉的token量直线上升？萍季尥访悄芄徊还顺杀镜纳誸oken，但对于创业公司和幼我开发者来说，token的成本带来的是焦虑。

Nathan Wang 资深AI Agent开发者好比像OpenClaw，你可能跑一个工作，稍微复杂一点，几千万的token量都是极度有可能的。

钱宇靖 GMI Cloud工程主管若是你去跑一个最贵的Claude的模型，你可能让它做一个很幼的事件就要花十几二十刀，这是真的有点贵。

Uber的CTO在接受采访时泄漏，公司2026年的AI预算在开年几个月内就已经全数用完了，重要是由于工程师们对Claude Code的使用量暴增。他的原话是：“我得沉新回去做预算了，由于我以为够用一年的钱，已经没了。”

硅谷驰名投资人Chamath Palihapitiya最近也公开抱怨，他投资的一家软件公司自从团队起头用AI编程工具后，运营成本在几个月内翻了三倍多，照这个趋向年化AI支出将达到千万美元级别。他半恶作剧地说了一句在社交媒体上广为流传的话：感激VC们掏钱为这场AI盛宴买单。

能够看到，对于企衣反说，出格是软件SaaS行业，AI时期的成本结构跟随前齐全不一样了。以前做一个SaaS产品，研发投入是一次性的，用户越多边际成本越低，这是一门越卖越赚的生意。但此刻，每个用户的每一次操作背后都有一笔token账单在跑，用户用得越深、职能越智能，作为产品方，反而要付更多钱给模型厂商。这个成本不会像传统软件那样摊薄到靠近零，它是随着用量线性增长的。

这也是为什么token在造成AI创业公司最主题的“弹药”，也有风投基金起头尝试直接给被投企业提供token额度，作为投资的一部门。这个逻辑很单一：对好多AI创业项目来说，拿到钱之后第一件事就是去买token，那为什么不直接给token呢？

顺着这个逻辑来讲，是不是token在造成一种新的钱币？那token又到底是若何定价的呢？

拆解Token账单

大模型公司到底怎么算钱？

Token的定价是怎么算的？这个问题的答案，远不是“一个单价乘以数量」剽么单一。我们以一次最单一的对话交互为例，你的账单上至少有三种分歧价值的token在运行：

第一是Input token（输入token），也就是你发给模型的内容。

第二是Cached input token（被缓存的输入 token），意思是若是某些prompt、高低文或文件内容之前已经被模型系统缓存过，再次挪用时，这部门token的价值会更便宜。

第三是Output token（输出token），也就是模型天生回覆时产生的token。

钻研芯片与token efficiency（词元效能）方向的肖志斌在接受硅谷101采访时就说，均匀来说，在对话工作上，这三者的价值或许是：1:0.1:6的水平。

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂若是是对话类利用，挪用就比力单一。你喂给它的input context（输入高低文）、你提供的高低文和文件，这一部门都作为input。若是你提供的prompt已经在缓存里被缓存过，那这个成本根基上就是input token成本的1/10。而后最后输出的成本，就是output token的成本，根基上是input token成本的6倍，这是OpenAI目前的情况。

分歧公司凭据模型的能力给出的定价是分歧的。举个例子，GPT-5的API价值上，Input是每百万token 1.25美元，Cached input是每百万token 0.125美元，Output token是每百万token 10美元。

而OpenAI颁布的最新模型GPT-5.5，分了长短高低文两档，长高低文的价值是2倍。短高低文Input是每百万token 5美元，Cached input是每百万token 0.5美元，Output token是每百万token 30美元。

若是直接对比价值的话，是不是感触涨价了好几倍，其实不能这么算。

这里面有一个出格反直觉的悖论：越贵的模型，可能反而总成本更低。由于强模型一次就做对了，弱模型可能要反复沉试，中央若是犯错就还必要人为染指，这也是综合成本。也就是说，固然token价值在涨，但“每个有效结论的成本”反而鄙人降。

所以，最贵的GPT-5.5-pro和GPT-5.4-pro，短高低文Input是每百万token 30美元，Output token是每百万token 180美元，长高低文还要再贵一倍。但若是能力足够强，实现工作足够正确，在一些复杂工作和场景上，反而是能把开发者的成本价值给打下来的。

出格是在agent场景，由于agent不是一问一答，它会来回挪用模型，每一步可能挪用分歧的工具，工具又会产生新的日志和高低文，返回给agent持续循环挪用。

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂 agent loop（循环）会沉新、持续挪用，所以对于agent来说，整体是比力复杂的，除了单次模型挪用的input和output token亏损，还有持续产生的日志，以及挪用工具成本，现实上相当复杂。最终实现工作用的token数，取决于工作挪用了几多次agent loop（循环）。若是是质量高的模型，可能一次就天生了你想要的答案，挪用的工具也相宜，返回的output也是你想要的。但若是用了便宜模型，可能必要花更多功夫做iteration（迭代），来来回回挪用，甚至中央犯错。所以此刻有个悖论：越贵的模型，实现工作的成本反而可能越低。

所以，分歧的模型公司若何定价，一方面是由模型的推理成本以及大模型研发用度来决定的，但更关键的是按模型质量和工作实现度。

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂首先是推理成本，这是最根基的成本，就是单次推理的成本，好比你挪用一次模型。第二是要在模型里摊平大模型的研发用度，这也是一部门。但最沉要的，其实是依照模型质量去定价，分歧的模型类型，有没有推理能力？高低文窗口的大？实现工作的次数，能不能急剧找到正确的output？好多公司是按推理成本定价的，但这样其实不成取，应该按模型质量或对工作的实现度去定价，这里面的价值空间是比力大的。

这里还有一派玩家，就是像微软Azure、亚马逊AWS或者国内的阿里和火山引擎这样的云厂商。有的企业是通过这些云厂商去挪用模型，他们收到的token账单就是从云厂商这边给出的。

云厂商对token的收费与大模型公司的API官方收费不会相差太多，但有时辰云厂商会由于提供了更多的服务和能力，好比说区域部署、特定数据驻留、企业合规、优先推理、托管能力，以及私有化或专用吞吐的这些服务，使得价值更贵。

这时辰，token账单就是：模型token费+云服务封装+企业级基础设施溢价。

钱宇靖 GMI Cloud工程主管大部门云服务商的计价方式，是凭据当下模型在这台机械上能跑出几多token每秒，再凭据这个机能反向推算GPU正本的成本是几多，再加上一个premium（溢价），就造成最终的价值。

但有的时辰，云厂商也会由于企业折扣，或者必要激进抢占市场，来让价值更便宜，这种情况也是有的。

而就在后OpenClaw时期，当硅谷起头卷我们开头说到的Token-maxxing这件事件的时辰，各人发现，这个账单还是很可怕的。因而出现了一个景象：来自中国的开源模型，由于性价比，起头在国际开发者社区中，大受欢迎。

Nathan Wang 资深AI Agent开发者 Kimi的价值，我记得爆出来的input或许是不到55美分，output或许是2.6美元。

知县北京大学推算机系本硕，AI爱好者和社区项目OwliaBot builder 好比MiniMax，我记得是受到了OpenClaw官方推荐的。在做设置、选模型的时辰，OpenClaw软件里，MiniMax后面会有一个推荐的标识，这也相当于给中国模型做了不少宣传。宣传之后，各人可能就试了一下，发现的确还能够，固然顶级能力差一些，但好多工作也不长短要那么高的推理能力。好多时辰，执行反而必要你不要想太多，instruction following（指令遵循）比力好，做得快，最沉要的还是便宜。

在一些工作上，中美模型的价差能够高达50-70倍。这就诠氏缢为什么，当OpenClaw这类agent工具，让token亏损从万级跳到百万级的时辰，全球开发者险些本能地转向了中国的便宜模型。

登顶token挪用排行榜

中国模型若何做到超高性价比

OpenClaw爆火之后，由于agent工作对开源模型挪用的需要飙升，已经上市的中国模型厂商，好比说Zhipu AI和MiniMax在股价上迎来了疯狂的涨幅。

与此同时，2026年3月掀起了一波集体涨价潮。从阿里云到百度智能云，从智谱到腾讯云混元系列模型，险些所有重要厂商，都在统一个月内颁发上调AI有关产品价值，涨幅从5%到400%不等。

钱宇靖 GMI Cloud工程主管此刻各人看到开源模型的token亏损量上升，是由于开源模型的能力已经越过了某个门槛，好比智谱或者Kimi，在编程上最近都有比力大的提升。编程这个赛路正本就是大模型token亏损最大的赛路之一，当法式员发现开源模型可能跟几个月前的Anthropic模型一样好用，但价值又极其便宜的时辰，天然就会换到开源模型，这也是为什么开源模型的价值上升了。

对于幼我开发者和创业公司来说，处置不那么复杂工作的时辰，转向开源模型是未可厚非的。

拿MiniMax M2.5和Claude Opus 4.6做个直接对比：在SWE-Bench Verified软件工程基准测试中，两者得分别离是80.2%和80.8%，说真话，这点差距在现实使用中险些感触不到。但打开价值表就齐全分歧了：MiniMax M2.5的输入价值是每百万token 0.3美元，Claude Opus 4.6是5美元。同样的活，前者的价值只有后者的十七分之一。对于一个每天要跑几千万token的OpenClaw用户来说，这不是省一杯咖啡钱的问题，而是账单从几百美元直接降到几十美元的区别。

那中国模型为什么能做到这么便宜？

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂第一是技术层面上它用了MoE（混合专家模型），极度深度的MoE，专家的size变得越来越幼，每一次运行的专家数量也不大，通过这种步骤在技术上能够节俭。第二是生态的问题，各人通过补助去抢占生态。第三是有些公司像阿里，它是云厂商，自己的成本定价能够比名义计价更低，它有更高的margin（利润率）去把模型价值打得更低。

分歧的模型其实给了开发者们分歧的选择，好比说复杂的工作就交给更高机能的模型，单逐一些或者沉复性高的工作就给便宜一点的模型，这样的混合使用，成为了agent时期的新token模式。

黄仁勋在GTC 2026上给出了一个更宏观的token定价框架。

他把token分成了五个价值区间：免费层（高吞吐、低交互速度，靠告白变现）、中级层（每百万token 3美元）、高级层（每百万token 6美元）、高速层（每百万token 45美元）到超高速层（每百万token 150美元）；迫恃囊馑己苊魅，token不再是一种同质的商品，它的价值应该由交互速度和使用场景决定，就像电力有峰谷电价一样。

当然，这些暴增的需要背后，也有一个不容忽视的问题：到底是不是真的必要亏损这么多token？一些业内人士就品评说，当前全球企业级AI利用中，可能有近一半的token没有产生现实价值。

路理很单一，agent不像人类那样知路“够了就停”，它在执行一个工作的过程中，会反复读取整个对话汗青、沉新扫描已经处置过的文件、把早就过期的高低文一遍又一遍地喂进模型。每多跑一轮，这些冗余信息就像滚雪球一样越滚越大，但真正跟当前工作有关的，可能只占其中一幼部门。

怎么让Agent少烧冤枉钱，在成为一个新的技术和贸易赛路。而Token Efficiency（Token效能）成为了下个阶段的关键词。其中值得提的一个例子，就是OpenRouter这家公司。

从NFT到AI的“货架之王”

OpenRouter这个平台已经成了观察全球模型使用趋向的一面镜子。你看到的好多关于中国模型挪用和排名的数据图都出自于这个平台。

OpenRouter背后的人很有意思，首创人Alex Atallah的上一个身份，是全球最大NFT买卖所OpenSea的结合首创人兼CTO。

2023年，他起头做OpenRouter，这门生意的逻辑其实很单一：市面上模型越来越多，开发者不想每家单独注册、单独充值、单独对接API体式，OpenRouter就做了一个统一入口，所有模型一个接口搞定，平台从中抽取约5%的用度。据Information报路，a16z在2025年对OpenRouter领投了4000万美元，其时估值约5亿美元，而最新一轮融资已将估值推至靠近13亿美元。

让这门生意真正腾飞的，是OpenClaw的发作。当全球开发者疯狂挪用各类模型来驱动Agent工作流时，他们必要一个能急剧切换模型的中央层，而OpenRouter刚好就在那里等着，这个机遇险些不要抓得太好。

Atallah曾将OpenRouter与他上一次创业做过类比，两次做的都是把分散的供给，整合到一个平台上。他赌的是：供给越分散，中央商越值钱。

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂它加了一层API挪用层，跟OpenAI的API挪用是兼容的。若是你必要做一个工作，能够自动做分歧模型的切换，统一API、统肯定价。这样对大部门用户来说，出格是从0到1的AI草创公司，急剧上线、急剧试错、急剧找到匹配的模型，是最沉要的。另表它还有fallback（后备）机造，一个模型出了问题，或者latency（延长）忽然很高，或者下线了，能够急剧切换到另一个模型。

当然，OpenRouter也有它的数据局限性。

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂好多token的使用量是统计不到的。从0到1的草创公司可能会用OpenRouter，但从1到10，就会混用OpenRouter和直接API挪用。大厂或者业务极度明确的公司，会直接挪用Anthropic、OpenAI或者Google的API。所以OpenRouter对token使用量有肯定的指向性，也能做一些prediction（预测），但并不蕴含所有的token挪用量。

换句话说，OpenRouter的数据，更像是创业公司和独立开发者群体的风向标，而不是整个AI行业的全景图。但正是这个群体，对价值最敏赣注对新模型最愿意尝鲜、迁徙成本最低，组成了中国模型出海的第一波“自来水”用户。

谁在给Token“装电表”？

若是token是AI时期的“电”，那总得有人给这些电装电表。这件事听上去不够性感，但看一眼客户名单就知路它有多沉要：OpenAI、NVIDIA、Anthropic、Databricks，全在用统一家公司的计费系统，这家公司就是Metronome。

Metronome首创团队的布景很注明问题，两位首创人都出自Dropbox，在那里亲自经历过一个让所有SaaS工程师头疼的事件：改定价。表表上只拭浇槁费调几块钱，背后却要动一大堆写死在代码里的计费逻辑。

到了AI时期，这个痛点被放大了几个数量级，收费单元不再是“一幼我头一个月几多钱”，而是造成了token数、API挪用次数、GPU时长这些颗粒度极细的指标，并且每个客户的合同条款、折扣结构、用量阶梯可能都不一样。

知县北京大学推算机系本硕，AI爱好者和社区项目OwliaBot builder SaaS的成本相对不变，就是服务器成本，甚至都是跟云厂商预先约定好的价值。但token公司的确挺tricky（复杂）的，跟卡自身的情况有关，跟电的情况有关，同时还跟要求量有关，峰值的时辰会挤到一路。各人也有体感，就是哪怕买了最顶级的套餐，有时辰也必要列队。并且你做的工作不一样，对token的亏损成本也齐全分歧。

Metronome做的事件，就是“清澈地记住谁在什么功夫挪用了什么器材，花了几多token。”但大部门公司自己做这件事做不好，由于“产生了什么”和“该怎么收费”，是两套齐全分歧的逻辑，把它们耦合在一路就会越改越脆弱。

Metronome的主题设计就是把这两件事彻底拆开，工程团队只管上报用量数据，产品和销售团队自己配置价值和合同条款，中央的换算、出账、对账全数自动化。

知县北京大学推算机系本硕，AI爱好者和社区项目OwliaBot builder 他的做法我感触挺不错的。首先不思考计费，站在技术角度，用户跟API的交互，到底做了哪些事件？是读还是写？模型在做思虑？还是射中了缓存？这些分歧的事务先记下来，由于这些事务代表几多成本，自身可能是动态的。所以先不把它跟钱挂钩，记下事务流之后，再有另表一层：这些事务流别离怎么定价？好比射中缓存的可能只有一分钱，没射中就要一块钱。第三层就是我们能接触到的：订阅造是一种计费方式，直接买API是一种，设定限额再加超额是一种。第四层可能就是为了卖出去而要打折，好比Opus 200刀是100刀的两倍成本但用量是四倍，他们就说在打五折。我看完这四层感触极度合理。

这家公司的发展速度很快。据公开报路，Metronome累计融资约1.28亿美元，今年1月被Stripe收购。一个做计费基础设施的100人团队，估值追上了好多做模型的公司，这自身就注明，在token经济里，“怎么算钱”也变得越来越沉要。

而在这样的一个产业中，“套利”的机遇也出现了。

Token套利

当“中央商”起头赚差价

我们在前文中说到，此刻开发者们会分歧的模型混着用：复杂工作用Claude、GPT等昂贵模型，单一工作用MiniMax、kimi等中国的性价比模型。

而对应的，在token经济学里，一种新的贸易模式在浮出水面，业内叫它Token Arbitrage（Token套利）。

知县北京大学推算机系本硕，AI爱好者和社区项目OwliaBot builder 这有点像国内买运营商套餐，1千兆下行带宽只配了40兆上行带宽，但通常用户感触不到。token上也是类似的，很有可能你全用便宜模型，和全用贵模型，用户看来区别不大，那这时辰就有套利空间了。性质上最后买单的是用户，只有效户感触ok，那就是ok的。这在我看来真的有点像税务审计师：你自己报税可能要交1万美金，你花5000美金雇了个审计师，他助你报只报了2000美金的税，他更专业、懂优化，优化出来的部门双方各拿一半。token arbitrage（套利）好好做就是这样的生意。肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂像我们自己搭建OpenClaw这种agent，注定会有一个便宜模型，可能是国内的大模型，高端的可能用Anthropic的Sonnet或者更好的OpenAI模型。我们公司也做了一个OpenClaw的token auto tuner（自动调优器），针对分歧的工作能够进一步细分，甚至用一个模型去判断这个工作的复杂度，看能不能用便宜模型来做。

更进阶的套利方式不只是“批发转零售”，而是去搭建一个“智能路由器”，用户需要进来后，吓酌一个模型去判断工作的复杂水平，单一工作分配给便宜模型，只有真正复杂的工作才给Claude或GPT。对用户来说是黑盒，但中央商在不休优化成本结构。

钱宇靖 GMI Cloud工程主管作为模型提供商，各人可能城市有自己的路由模型。它就是一个幼模型，来判断当下这个工作的难易水平，而后assign（分配）给相宜的模型来最幼化成本；褂幸恢址绞绞峭ü桓鯽gent产品，好比Genspark或者Manus，他们内部对分歧模型的能力有认知，会针对分歧工作做模型分发。

Nathan Wang 资深AI Agent开发者我感触省token是正常的。你吓仔个用户定价，设好一个margin（利润率），好比按复杂模型的使用量定价，设定了30%的margin（利润率）。之后，一旦用户接受了这个价值，你其实是拿便宜的token换掉高价token给到用户。若是用户感知不出来，感触体感上、阐发上没有变动，那用户其实还是在付原来高价值token的钱。

知县也是一个典型的“混合调度”用户。他每天跟AI互动几百次，同时使用Claude、GPT和中国模型，但给它们分配了齐全分歧的角色。

知县北京大学推算机系本硕，AI爱好者和社区项目OwliaBot builder Opus最强的是脑洞，我更愿意把Opus当产品经理来对待，它想问题比力发散。我跟它聊的时辰发现，我有些设法跟它一点就透，我说想做一个这样的事件，它根基上就能顺着我没说的话，把我脑子里没说出来的器材都列出来。GPT就稍微nerd（书白痴）一点，有点像在跟技术掌管人讲产品，收到的都是挑战。所以Opus适合做设计，天马行空；Codex适合做把关、做复盘。中央的执行，只有规划写好了、分得足够精密，重要必要的是有肯定的智能，并且快、便宜，由于这是最耗token的时辰，真正往表写代码是极度极度耗的，输出是最贵的。这个场景里，就用国产模型去做执行，把代码写好、写出来。

Agent开发者Nathan从工程化实现上，助我们诠氏缢一下怎么做：

Nathan Wang 资深AI Agent开发者从最单一的方式动手，能够拿一个模型来分辨用户的问题，用户根基上都在问问题，就拿个单一模型去detect（检测）用户意图，通知它肯定的metrics（指标）怎么分辨，再加上分歧的threshold（阈值），这是最单一的工程化方式，就能够把工作做根基的分辨。到后期抓到一些用户数据，能够通过单一的RL（强化进建）或者训练的方式去优化这个幼模型。前期吓酌prompt方式抓数据，数据够了再fine-tune（微调），一步步下来，它就会更高效地域分复杂场景和单一场景。最终让用户无法分辨，让他付高价值token的钱，用廉价值的token来服务。

那问题来了：这种套利可持续吗？

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂我感触短期内是有机遇的。但对于单个模型，好比Anthropic，其实已经把这个能力build（内置）到它的coding agent（编程智能体）里面了，它最近加了一个Advisor模式，吓酌贵的模型判断哪些工作能够用便宜模型做、哪些用贵的模型做，大模型厂商自己会把这个器材build in（内置）到自己的生态里。

但跨模型的调度空间约有被穷尽。由于每家大模型公司只优化自己的模型。然而，市场上的模型太多了，跨模型的智能调度不会只是短期机遇。

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂这个是有创业空间的，不仅仅是针对模型定价去做这件事，这里要做好多工作和模型匹配的工作：除了工作精准度，还有模型延长的判断、模型质量的判断，以及工作实现度的判断。并且此刻还只是做了比力初步的API聚合，加了一些pricing（定价战术），还没有做到模型质量和工作的匹配，甚至是模型和硬件的匹配，也就是延长和吞吐量的匹配。到底谁会赢？我的判断是，最会调度token的系统会赢。但这种系统不会止步于OpenRouter这个水平，由于还有好比prompt压缩这类职能，大模型厂商会把这些做进自己的ecosystem（生态系统）。若是你做通用的token调度系统，肯定要做得更深。

中国Token出海

结构性的产业机遇？

讲到这里，我们能够把视角再拉大一点。想一想，当一个伦敦的法式员，用MiniMax的API跑OpenClaw的时辰，物理层面产生了什么？

他的要求从英国启程，穿过海底光缆，落在贵州的数据中内心。GPU起头工作，电扇起头转，电表起头跳。几秒钟后，了局原路返回。整个过程中，没有一度电脱离过中国的电网，但这度电的价值，已经通过API账单，以token的大局实现了跨境结算。

某种意思上，这是一种全新状态的“出口”对不合？

中国从前出口日用品、衬衫、家电，后来是电动车，但这些都是实物要过海关。Token出海不必要集装箱，甚至不必要任何实体商品离建国境。电力在本地亏损，算力在本地运行，但创造的价值通过互联网，瞬间交付到全球任何一个开发者手上。有人把这叫做“电力出海”，固然电没出去，但电的价值出去了。

那么一个天然的问题是：中国token能卖这么便宜，好多人的第一反映是电价，这种状态会一向持续下去吗？现实情况还挺复杂。GMI Cloud首创人Alex在GTC现场给了我们一个很直率的判断：美国其实不缺电，缺的是输送能力。

Alex Yeh GMI Cloud首创人瓶颈还是在能源供给端，现实上美国不缺电，缺的是distribution power（配电能力）。高压电上有好多电，天然气一烧就能发电，但问题是distribution（分配），你要把电传输到一个点，这必要大量审批，要建变电站，从330kV一路降到400V或800V，这个过程极度冗长，光是拿审批就烦到爆炸。

现实上，中美电力成本的绝对值差距并不大，中国工业用电0.4-0.6元/度，美国0.8-1.2元/度，中美双方的工业电价差距其实没有设想中那么大，真正拉开差距的是基础设施的响应速度：中国能够在西部戈壁里铺满光伏板，再通过特高压电网把电送到东部的算力集群。

所以从电力角度看，美国的token价值一时半会很难降好多。同时，Alex以为，从存储等供给链角度看，token价值短期内更难降落。

Alex Yeh GMI Cloud首创人 DDR4的DRAM价值，是一年前的10倍。此刻CX7也在缺货、电源供给和CPU也起头在缺货，各个供给链都起头缺货。我看到OpenClaw的起来、agent起来、多模态的起来以及编程的起来，刚好这三个是一个美满的风暴，所有的供给链就跟不上这个节拍。钱宇靖 GMI Cloud工程主管最大的挑战还是建足够多的数据中心，这是物理上的限度，提效当然也极度沉要。每一个云服务商城市紧跟技术迭代的措施去提升token效能、降低延长，但最终我们都被限度在一件事上：我们一共有几多数据中心、有几多卡、通了几多电。

这波出海盈利，已经实切其实地反映在了收入上。如今MiniMax海表收入占比超过七成，月之暗面在Kimi K2.5颁布后，短短数周内收入就超过了2025年整年，智谱的模型API收入也在今年出现了发作式增长。而token需要的天花板目前底子还看不到。

钱宇靖 GMI Cloud工程主管每一个event（事务）都触发了token亏损的指数级增长，目前还没有看到显著的天花板。由于此刻并不是每幼我都在用OpenClaw，也没有把生涯中每一个vertical（垂直方向）都AI化，所以整体token consumption（消费）还会持续增长，就像老黄说的，未来的潜力还是极度大，目前看不到天花板。

各人想想看，此刻大部门人还只是偶然用用OpenClaw，大部门行业还远约有被Agent渗入。但趋向已经很分了然：token的亏损在从“人类自动提议”造成“机械自动运行”。一个法式员手动用AI编程副手，一天可能烧几十万token。但一旦他配了一个Agent全天候在后盾跑：写代码、查资料、跑测试、发部署，亏损量能够直接跳到千万级。倒剽种使用方式从少数极客扩散到通常开发者，再扩散到每一个知识工作者，token的需要增长就是指数级此外增长了。

若是用一句话来概括这个趋向：若是上一个时期中国出口的是衬衫和家电，这个时期是电动车，那下一个时期可能就是token。

回到开头的问题：token到底意味着什么？

对Meta员工来说，它是排行榜上的勋章。对创业公司来说，它是每个月最大的一笔开支。对OpenRouter来说，它是抽5%佣金的流水。对中国的云厂商来说，它是把电力造成美元的管路。对于黄仁勋来说，Token会造成大量商品，每一个输入和输出都与芯片挂钩。

钱宇靖 GMI Cloud工程主管我感触这是一个正常的发展方向。就像我说的，token是一种commodity（大量商品），那人类汗青上对于销售commodity（大量商品）出现过的所有销售方式，都能够预计会在token上沉现。所以最后就是看谁更有创意、谁的市场打得更好，由于只有底层模型技术过硬，它们的accuracy（正确性）现实上不会有太大区别。

未来，Token就会是一种大量商品。而萦绕大量商品，人类几千年来发现过的所有贸易模式：期货、套利、批发零售、聚合平台、计量计费，城市在token身上沉演一遍。同时，token定价的方式也可能会产生巨大的变动，好比说业界也在起头尝试按“复杂度计费”的effort-based pricing模式，或者是按工作实现度计费的task-based pricing模式，这都使得token economy的定价方式在未来有着巨大的进化空间。这就像原油到汽油再到续航里程，这中央定价的逻辑，也会在token到工作到业务了局，这条进化蹊径上再复现一遍。

我们在这篇文章里看到的每一个概想和公司，从Token-maxxing到token套利，从OpenRouter到Metronome，性质上都是这个古老逻辑的AI升级版本。

唯一分歧的是速度。这所有不是在几十年里慢慢发展的，而是在几个月内迅速产生的。当你读完这篇文章的时辰，OpenRouter上可能又多了一个新模型冲上了榜单，某家云厂商可能又调了一次价，某个开发者可能又发现了一种新的省token的步骤，而这场游戏才刚刚起头。

注：部门图片起源于网络

【本期节目不组成任何投资建议】

【视频播放渠路】

国内：B站｜腾讯｜视频号｜西瓜｜头条｜36kr｜微博｜虎嗅

海表：Youtube

联系PokerStars扑克官网：video@sv101.net

【创作团队】

监造｜泓君陈茜

撰稿｜Edward

编纂/主持｜陈茜

剪辑｜Jacob

运营｜孙泽平

@林柏娟：蛋蛋小子派奇，郑丽文拍桌怒骂赖清德半幼时
@杜淳骏：珠峰南坡在批量“诳骗”全球中产吗
@李佳莹：宠物险告白现“女性私密部位”

热点排行

【网站地图】