PokerStars扑克官网

起源:台官员否定美不支持“台独”时宕机作

起源:台官员否定美不支持“台独”时宕机作者: 刘清正:

Token经济学:AI时期的新钱币战争

在硅谷,有了一种新的炫富方式——每天烧了几多token。

对于这个炫富方式,此刻有一个新词叫:Token-maxxing,意思是“把token用量拉到极限”。它造成了公司内表人们攀比的新方式:你每天亏损几多token、你能同时调度几多个agent运杏注你的token throughput(吞吐量)有多高,这些都在造成衡量一幼我“有多AI原生”的新指标。

不外,对于这种新较量,全球AI圈的巨头们在进行着一场强烈的争吵:公司是否应该不设限度地激励员工们去使用token?

而在这场争吵的背后,是一场萦绕token发展的新军备较量。硅谷大厂们为什么在疯狂卷token用量,这背后到底有没有路理?大模型公司是怎么给token定价的?中国模型若何凭借“物美价廉”杀入全球开发者市场,在OpenRouter上霸榜?“Token套利”的新模式,怎么来赚差价?以及在所有这些背后,一个更大的问题:中国的token出海,会不会成为下一个结构性的产业机遇?若是上一个时期中国出口的是衬衫,这个时期是电动车,下一个时期会是token吗?

(本文为视频改写,欢迎各人收看以下视频)

Token-maxxing之辩

用得越多就越好吗?

4月初,Meta被爆内部有一个名为“Claudeonomics”排行榜,这个排行榜汇集了超过85000名Meta员工的AI使用数据,列出了token亏损量最高的前250名“超等用户”。

在最近一个月,排行榜上的总使用量突破了60万亿token,若是依照Anthropic Opus 4.6的定价,约莫每百万token均匀15美元来粗略换算的话,这些token的价值高达约9亿美元。排名第一的那位员工,烧掉的token价值高达数百万美元。

这个新闻曝光之后,立马在硅谷引发了一场大争吵。

AI创业公司Writer的CEO May Habib,直接说这是“生死生死级此外问题”。她自己公司内部也有一个token亏损排行榜,并且她明确通知员工,她自己在盯这个数据。她以为若是不全力拥抱AI,就会被裁减。

Uber也很激进。目前Uber后端系统中,11%的新代码更新已经由agent实现,而三个月前这个比例还不到1%。Uber CTO的原话很直白:“我的愿景是把软件工程转型为agent软件工程。”

但否决Token-maxxing的声音同样敏感。

HubSpot的CEO Yamini Rangan,在LinkedIn上发了一句被宽泛转发的话:“Outcome maxxing>>token maxxing”。意思是,比起疯狂亏损token,不如看看你产出了什么了局。她代表了另一种沉要概想:纯正的token使用量,是一个谬误的指标。

AI软件工程公司Jellyfish的CEO Andrew Lau,说得更直白:“你能够一天到晚刷token,但得到的了局可能齐全不是你想要的。”

这两派的吵得不成开交。但更多的中央派似乎还是形成了共识:不充分利用AI的公司,会被竞争敌手超过并变得过期。在这种信想下,哪怕排行榜和激励造度不美满,哪怕一些AI使用最终被证明是浪费的,大厂首创人和高层们也被卷起来了,以为必必要这样做能力让公司转型成为更AI-native(AI原生)的公司。

自OpenClaw爆火以来,agent工作烧掉的token量直线上升?萍季尥访悄芄徊还顺杀镜纳誸oken,但对于创业公司和幼我开发者来说,token的成本带来的是焦虑。

Nathan Wang 资深AI Agent开发者 好比像OpenClaw,你可能跑一个工作,稍微复杂一点,几千万的token量都是极度有可能的。

钱宇靖 GMI Cloud工程主管 若是你去跑一个最贵的Claude的模型,你可能让它做一个很幼的事件就要花十几二十刀,这是真的有点贵。

Uber的CTO在接受采访时泄漏,公司2026年的AI预算在开年几个月内就已经全数用完了,重要是由于工程师们对Claude Code的使用量暴增。他的原话是:“我得沉新回去做预算了,由于我以为够用一年的钱,已经没了。”

硅谷驰名投资人Chamath Palihapitiya最近也公开抱怨,他投资的一家软件公司自从团队起头用AI编程工具后,运营成本在几个月内翻了三倍多,照这个趋向年化AI支出将达到千万美元级别。他半恶作剧地说了一句在社交媒体上广为流传的话:感激VC们掏钱为这场AI盛宴买单。

能够看到,对于企衣反说,出格是软件SaaS行业,AI时期的成本结构跟随前齐全不一样了。以前做一个SaaS产品,研发投入是一次性的,用户越多边际成本越低,这是一门越卖越赚的生意。但此刻,每个用户的每一次操作背后都有一笔token账单在跑,用户用得越深、职能越智能, 作为产品方,反而要付更多钱给模型厂商。这个成本不会像传统软件那样摊薄到靠近零,它是随着用量线性增长的。

这也是为什么token在造成AI创业公司最主题的“弹药”,也有风投基金起头尝试直接给被投企业提供token额度,作为投资的一部门。这个逻辑很单一:对好多AI创业项目来说,拿到钱之后第一件事就是去买token,那为什么不直接给token呢?

顺着这个逻辑来讲,是不是token在造成一种新的钱币?那token又到底是若何定价的呢?

拆解Token账单

大模型公司到底怎么算钱?

Token的定价是怎么算的?这个问题的答案,远不是“一个单价乘以数量」剽么单一。我们以一次最单一的对话交互为例,你的账单上至少有三种分歧价值的token在运行:

第一是Input token(输入token),也就是你发给模型的内容。

第二是Cached input token(被缓存的输入 token),意思是若是某些prompt、高低文或文件内容之前已经被模型系统缓存过,再次挪用时,这部门token的价值会更便宜。

第三是Output token(输出token),也就是模型天生回覆时产生的token。

钻研芯片与token efficiency(词元效能)方向的肖志斌在接受硅谷101采访时就说,均匀来说,在对话工作上,这三者的价值或许是:1:0.1:6的水平。

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂 若是是对话类利用,挪用就比力单一。你喂给它的input context(输入高低文)、你提供的高低文和文件,这一部门都作为input。若是你提供的prompt已经在缓存里被缓存过,那这个成本根基上就是input token成本的1/10。而后最后输出的成本,就是output token的成本,根基上是input token成本的6倍,这是OpenAI目前的情况。

分歧公司凭据模型的能力给出的定价是分歧的。举个例子,GPT-5的API价值上,Input是每百万token 1.25美元,Cached input是每百万token 0.125美元,Output token是每百万token 10美元。

而OpenAI颁布的最新模型GPT-5.5,分了长短高低文两档,长高低文的价值是2倍。短高低文Input是每百万token 5美元,Cached input是每百万token 0.5美元,Output token是每百万token 30美元。

若是直接对比价值的话,是不是感触涨价了好几倍,其实不能这么算。

这里面有一个出格反直觉的悖论:越贵的模型,可能反而总成本更低。由于强模型一次就做对了,弱模型可能要反复沉试,中央若是犯错就还必要人为染指,这也是综合成本。也就是说,固然token价值在涨,但“每个有效结论的成本”反而鄙人降。

所以,最贵的GPT-5.5-pro和GPT-5.4-pro,短高低文Input是每百万token 30美元,Output token是每百万token 180美元,长高低文还要再贵一倍。但若是能力足够强,实现工作足够正确,在一些复杂工作和场景上,反而是能把开发者的成本价值给打下来的。

出格是在agent场景,由于agent不是一问一答,它会来回挪用模型,每一步可能挪用分歧的工具,工具又会产生新的日志和高低文,返回给agent持续循环挪用。

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂 agent loop(循环)会沉新、持续挪用,所以对于agent来说,整体是比力复杂的,除了单次模型挪用的input和output token亏损,还有持续产生的日志,以及挪用工具成本,现实上相当复杂。 最终实现工作用的token数,取决于工作挪用了几多次agent loop(循环)。若是是质量高的模型,可能一次就天生了你想要的答案,挪用的工具也相宜,返回的output也是你想要的。但若是用了便宜模型,可能必要花更多功夫做iteration(迭代),来来回回挪用,甚至中央犯错。所以此刻有个悖论:越贵的模型,实现工作的成本反而可能越低。

所以,分歧的模型公司若何定价,一方面是由模型的推理成本以及大模型研发用度来决定的,但更关键的是按模型质量和工作实现度。

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂 首先是推理成本,这是最根基的成本,就是单次推理的成本,好比你挪用一次模型。第二是要在模型里摊平大模型的研发用度,这也是一部门。但最沉要的,其实是依照模型质量去定价,分歧的模型类型,有没有推理能力?高低文窗口的大?实现工作的次数,能不能急剧找到正确的output?好多公司是按推理成本定价的,但这样其实不成取,应该按模型质量或对工作的实现度去定价,这里面的价值空间是比力大的。

这里还有一派玩家,就是像微软Azure、亚马逊AWS或者国内的阿里和火山引擎这样的云厂商。有的企业是通过这些云厂商去挪用模型,他们收到的token账单就是从云厂商这边给出的。

云厂商对token的收费与大模型公司的API官方收费不会相差太多,但有时辰云厂商会由于提供了更多的服务和能力,好比说区域部署、特定数据驻留、企业合规、优先推理、托管能力,以及私有化或专用吞吐的这些服务,使得价值更贵。

这时辰,token账单就是:模型token费+云服务封装+企业级基础设施溢价。

钱宇靖 GMI Cloud工程主管 大部门云服务商的计价方式,是凭据当下模型在这台机械上能跑出几多token每秒,再凭据这个机能反向推算GPU正本的成本是几多,再加上一个premium(溢价),就造成最终的价值。

但有的时辰,云厂商也会由于企业折扣,或者必要激进抢占市场,来让价值更便宜,这种情况也是有的。

而就在后OpenClaw时期,当硅谷起头卷我们开头说到的Token-maxxing这件事件的时辰,各人发现,这个账单还是很可怕的。因而出现了一个景象:来自中国的开源模型,由于性价比,起头在国际开发者社区中,大受欢迎。

Nathan Wang 资深AI Agent开发者 Kimi的价值,我记得爆出来的input或许是不到55美分,output或许是2.6美元。

知县 北京大学推算机系本硕,AI爱好者和社区项目OwliaBot builder 好比MiniMax,我记得是受到了OpenClaw官方推荐的。在做设置、选模型的时辰,OpenClaw软件里,MiniMax后面会有一个推荐的标识,这也相当于给中国模型做了不少宣传。宣传之后,各人可能就试了一下,发现的确还能够,固然顶级能力差一些,但好多工作也不长短要那么高的推理能力。好多时辰,执行反而必要你不要想太多,instruction following(指令遵循)比力好,做得快,最沉要的还是便宜。

在一些工作上,中美模型的价差能够高达50-70倍。这就诠氏缢为什么,当OpenClaw这类agent工具,让token亏损从万级跳到百万级的时辰,全球开发者险些本能地转向了中国的便宜模型。

登顶token挪用排行榜

中国模型若何做到超高性价比

OpenClaw爆火之后,由于agent工作对开源模型挪用的需要飙升,已经上市的中国模型厂商,好比说Zhipu AI和MiniMax在股价上迎来了疯狂的涨幅。

与此同时,2026年3月掀起了一波集体涨价潮。从阿里云到百度智能云,从智谱到腾讯云混元系列模型,险些所有重要厂商,都在统一个月内颁发上调AI有关产品价值,涨幅从5%到400%不等。

钱宇靖 GMI Cloud工程主管 此刻各人看到开源模型的token亏损量上升,是由于开源模型的能力已经越过了某个门槛,好比智谱或者Kimi,在编程上最近都有比力大的提升。编程这个赛路正本就是大模型token亏损最大的赛路之一,当法式员发现开源模型可能跟几个月前的Anthropic模型一样好用,但价值又极其便宜的时辰,天然就会换到开源模型,这也是为什么开源模型的价值上升了。

对于幼我开发者和创业公司来说,处置不那么复杂工作的时辰,转向开源模型是未可厚非的。

拿MiniMax M2.5和Claude Opus 4.6做个直接对比:在SWE-Bench Verified软件工程基准测试中,两者得分别离是80.2%和80.8%,说真话,这点差距在现实使用中险些感触不到。但打开价值表就齐全分歧了:MiniMax M2.5的输入价值是每百万token 0.3美元,Claude Opus 4.6是5美元。同样的活,前者的价值只有后者的十七分之一。对于一个每天要跑几千万token的OpenClaw用户来说,这不是省一杯咖啡钱的问题,而是账单从几百美元直接降到几十美元的区别。

那中国模型为什么能做到这么便宜?

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂 第一是技术层面上它用了MoE(混合专家模型),极度深度的MoE,专家的size变得越来越幼,每一次运行的专家数量也不大,通过这种步骤在技术上能够节俭。第二是生态的问题,各人通过补助去抢占生态。第三是有些公司像阿里,它是云厂商,自己的成本定价能够比名义计价更低,它有更高的margin(利润率)去把模型价值打得更低。

分歧的模型其实给了开发者们分歧的选择,好比说复杂的工作就交给更高机能的模型,单逐一些或者沉复性高的工作就给便宜一点的模型,这样的混合使用,成为了agent时期的新token模式。

黄仁勋在GTC 2026上给出了一个更宏观的token定价框架。

他把token分成了五个价值区间:免费层(高吞吐、低交互速度,靠告白变现)、中级层(每百万token 3美元)、高级层(每百万token 6美元)、高速层(每百万token 45美元)到超高速层(每百万token 150美元);迫恃囊馑己苊魅,token不再是一种同质的商品,它的价值应该由交互速度和使用场景决定,就像电力有峰谷电价一样。

当然,这些暴增的需要背后,也有一个不容忽视的问题:到底是不是真的必要亏损这么多token?一些业内人士就品评说,当前全球企业级AI利用中,可能有近一半的token没有产生现实价值。

路理很单一,agent不像人类那样知路“够了就停”,它在执行一个工作的过程中,会反复读取整个对话汗青、沉新扫描已经处置过的文件、把早就过期的高低文一遍又一遍地喂进模型。每多跑一轮,这些冗余信息就像滚雪球一样越滚越大,但真正跟当前工作有关的,可能只占其中一幼部门。

怎么让Agent少烧冤枉钱,在成为一个新的技术和贸易赛路。而Token Efficiency(Token效能)成为了下个阶段的关键词。其中值得提的一个例子,就是OpenRouter这家公司。

从NFT到AI的“货架之王”

OpenRouter这个平台已经成了观察全球模型使用趋向的一面镜子。你看到的好多关于中国模型挪用和排名的数据图都出自于这个平台。

OpenRouter背后的人很有意思,首创人Alex Atallah的上一个身份,是全球最大NFT买卖所OpenSea的结合首创人兼CTO。

2023年,他起头做OpenRouter,这门生意的逻辑其实很单一:市面上模型越来越多,开发者不想每家单独注册、单独充值、单独对接API体式,OpenRouter就做了一个统一入口,所有模型一个接口搞定,平台从中抽取约5%的用度。据Information报路,a16z在2025年对OpenRouter领投了4000万美元,其时估值约5亿美元,而最新一轮融资已将估值推至靠近13亿美元。

让这门生意真正腾飞的,是OpenClaw的发作。当全球开发者疯狂挪用各类模型来驱动Agent工作流时,他们必要一个能急剧切换模型的中央层,而OpenRouter刚好就在那里等着,这个机遇险些不要抓得太好。

Atallah曾将OpenRouter与他上一次创业做过类比,两次做的都是把分散的供给,整合到一个平台上。他赌的是:供给越分散,中央商越值钱。

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂 它加了一层API挪用层,跟OpenAI的API挪用是兼容的。若是你必要做一个工作,能够自动做分歧模型的切换,统一API、统肯定价。这样对大部门用户来说,出格是从0到1的AI草创公司,急剧上线、急剧试错、急剧找到匹配的模型,是最沉要的。另表它还有fallback(后备)机造,一个模型出了问题,或者latency(延长)忽然很高,或者下线了,能够急剧切换到另一个模型。

当然,OpenRouter也有它的数据局限性。

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂 好多token的使用量是统计不到的。从0到1的草创公司可能会用OpenRouter,但从1到10,就会混用OpenRouter和直接API挪用。大厂或者业务极度明确的公司,会直接挪用Anthropic、OpenAI或者Google的API。所以OpenRouter对token使用量有肯定的指向性,也能做一些prediction(预测),但并不蕴含所有的token挪用量。

换句话说,OpenRouter的数据,更像是创业公司和独立开发者群体的风向标,而不是整个AI行业的全景图。但正是这个群体,对价值最敏赣注对新模型最愿意尝鲜、迁徙成本最低,组成了中国模型出海的第一波“自来水”用户。

谁在给Token“装电表”?

若是token是AI时期的“电”,那总得有人给这些电装电表。这件事听上去不够性感,但看一眼客户名单就知路它有多沉要:OpenAI、NVIDIA、Anthropic、Databricks,全在用统一家公司的计费系统,这家公司就是Metronome。

Metronome首创团队的布景很注明问题,两位首创人都出自Dropbox,在那里亲自经历过一个让所有SaaS工程师头疼的事件:改定价。表表上只拭浇槁费调几块钱,背后却要动一大堆写死在代码里的计费逻辑。

到了AI时期,这个痛点被放大了几个数量级,收费单元不再是“一幼我头一个月几多钱”,而是造成了token数、API挪用次数、GPU时长这些颗粒度极细的指标,并且每个客户的合同条款、折扣结构、用量阶梯可能都不一样。

知县 北京大学推算机系本硕,AI爱好者和社区项目OwliaBot builder SaaS的成本相对不变,就是服务器成本,甚至都是跟云厂商预先约定好的价值。但token公司的确挺tricky(复杂)的,跟卡自身的情况有关,跟电的情况有关,同时还跟要求量有关,峰值的时辰会挤到一路。各人也有体感,就是哪怕买了最顶级的套餐,有时辰也必要列队。并且你做的工作不一样,对token的亏损成本也齐全分歧。

Metronome做的事件,就是“清澈地记住谁在什么功夫挪用了什么器材,花了几多token。”但大部门公司自己做这件事做不好,由于“产生了什么”和“该怎么收费”,是两套齐全分歧的逻辑,把它们耦合在一路就会越改越脆弱。

Metronome的主题设计就是把这两件事彻底拆开,工程团队只管上报用量数据,产品和销售团队自己配置价值和合同条款,中央的换算、出账、对账全数自动化。

知县 北京大学推算机系本硕,AI爱好者和社区项目OwliaBot builder 他的做法我感触挺不错的。首先不思考计费,站在技术角度,用户跟API的交互,到底做了哪些事件?是读还是写?模型在做思虑?还是射中了缓存?这些分歧的事务先记下来,由于这些事务代表几多成本,自身可能是动态的。所以先不把它跟钱挂钩,记下事务流之后,再有另表一层:这些事务流别离怎么定价?好比射中缓存的可能只有一分钱,没射中就要一块钱。第三层就是我们能接触到的:订阅造是一种计费方式,直接买API是一种,设定限额再加超额是一种。第四层可能就是为了卖出去而要打折,好比Opus 200刀是100刀的两倍成本但用量是四倍,他们就说在打五折。我看完这四层感触极度合理。

这家公司的发展速度很快。据公开报路,Metronome累计融资约1.28亿美元,今年1月被Stripe收购。一个做计费基础设施的100人团队,估值追上了好多做模型的公司,这自身就注明,在token经济里,“怎么算钱”也变得越来越沉要。

而在这样的一个产业中,“套利”的机遇也出现了。

Token套利

当“中央商”起头赚差价

我们在前文中说到,此刻开发者们会分歧的模型混着用:复杂工作用Claude、GPT等昂贵模型,单一工作用MiniMax、kimi等中国的性价比模型。

而对应的,在token经济学里,一种新的贸易模式在浮出水面,业内叫它Token Arbitrage(Token套利)。

知县 北京大学推算机系本硕,AI爱好者和社区项目OwliaBot builder 这有点像国内买运营商套餐,1千兆下行带宽只配了40兆上行带宽,但通常用户感触不到。token上也是类似的,很有可能你全用便宜模型,和全用贵模型,用户看来区别不大,那这时辰就有套利空间了。性质上最后买单的是用户,只有效户感触ok,那就是ok的。这在我看来真的有点像税务审计师:你自己报税可能要交1万美金,你花5000美金雇了个审计师,他助你报只报了2000美金的税,他更专业、懂优化,优化出来的部门双方各拿一半。token arbitrage(套利)好好做就是这样的生意。肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂 像我们自己搭建OpenClaw这种agent,注定会有一个便宜模型,可能是国内的大模型,高端的可能用Anthropic的Sonnet或者更好的OpenAI模型。我们公司也做了一个OpenClaw的token auto tuner(自动调优器),针对分歧的工作能够进一步细分,甚至用一个模型去判断这个工作的复杂度,看能不能用便宜模型来做。

更进阶的套利方式不只是“批发转零售”,而是去搭建一个“智能路由器”,用户需要进来后,吓酌一个模型去判断工作的复杂水平,单一工作分配给便宜模型,只有真正复杂的工作才给Claude或GPT。对用户来说是黑盒,但中央商在不休优化成本结构。

钱宇靖 GMI Cloud工程主管 作为模型提供商,各人可能城市有自己的路由模型。它就是一个幼模型,来判断当下这个工作的难易水平,而后assign(分配)给相宜的模型来最幼化成本;褂幸恢址绞绞峭ü桓鯽gent产品,好比Genspark或者Manus,他们内部对分歧模型的能力有认知,会针对分歧工作做模型分发。

Nathan Wang 资深AI Agent开发者 我感触省token是正常的。你吓仔个用户定价,设好一个margin(利润率),好比按复杂模型的使用量定价,设定了30%的margin(利润率)。之后,一旦用户接受了这个价值,你其实是拿便宜的token换掉高价token给到用户。若是用户感知不出来,感触体感上、阐发上没有变动,那用户其实还是在付原来高价值token的钱。

知县也是一个典型的“混合调度”用户。他每天跟AI互动几百次,同时使用Claude、GPT和中国模型,但给它们分配了齐全分歧的角色。

知县 北京大学推算机系本硕,AI爱好者和社区项目OwliaBot builder Opus最强的是脑洞,我更愿意把Opus当产品经理来对待,它想问题比力发散。我跟它聊的时辰发现,我有些设法跟它一点就透,我说想做一个这样的事件,它根基上就能顺着我没说的话,把我脑子里没说出来的器材都列出来。GPT就稍微nerd(书白痴)一点,有点像在跟技术掌管人讲产品,收到的都是挑战。所以Opus适合做设计,天马行空;Codex适合做把关、做复盘。中央的执行,只有规划写好了、分得足够精密,重要必要的是有肯定的智能,并且快、便宜,由于这是最耗token的时辰,真正往表写代码是极度极度耗的,输出是最贵的。这个场景里,就用国产模型去做执行,把代码写好、写出来。

Agent开发者Nathan从工程化实现上,助我们诠氏缢一下怎么做:

Nathan Wang 资深AI Agent开发者 从最单一的方式动手,能够拿一个模型来分辨用户的问题,用户根基上都在问问题,就拿个单一模型去detect(检测)用户意图,通知它肯定的metrics(指标)怎么分辨,再加上分歧的threshold(阈值),这是最单一的工程化方式,就能够把工作做根基的分辨。到后期抓到一些用户数据,能够通过单一的RL(强化进建)或者训练的方式去优化这个幼模型。前期吓酌prompt方式抓数据,数据够了再fine-tune(微调),一步步下来,它就会更高效地域分复杂场景和单一场景。最终让用户无法分辨,让他付高价值token的钱,用廉价值的token来服务。

那问题来了:这种套利可持续吗?

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂 我感触短期内是有机遇的。但对于单个模型,好比Anthropic,其实已经把这个能力build(内置)到它的coding agent(编程智能体)里面了,它最近加了一个Advisor模式,吓酌贵的模型判断哪些工作能够用便宜模型做、哪些用贵的模型做,大模型厂商自己会把这个器材build in(内置)到自己的生态里。

但跨模型的调度空间约有被穷尽。由于每家大模型公司只优化自己的模型。然而,市场上的模型太多了,跨模型的智能调度不会只是短期机遇。

肖志斌 ZFLOW AI首创人&CEO、华丽半导体协会前主席与董事会照拂 这个是有创业空间的,不仅仅是针对模型定价去做这件事,这里要做好多工作和模型匹配的工作:除了工作精准度,还有模型延长的判断、模型质量的判断,以及工作实现度的判断。并且此刻还只是做了比力初步的API聚合,加了一些pricing(定价战术),还没有做到模型质量和工作的匹配,甚至是模型和硬件的匹配,也就是延长和吞吐量的匹配。 到底谁会赢?我的判断是,最会调度token的系统会赢。但这种系统不会止步于OpenRouter这个水平,由于还有好比prompt压缩这类职能,大模型厂商会把这些做进自己的ecosystem(生态系统)。若是你做通用的token调度系统,肯定要做得更深。

中国Token出海

结构性的产业机遇?

讲到这里,我们能够把视角再拉大一点。想一想,当一个伦敦的法式员,用MiniMax的API跑OpenClaw的时辰,物理层面产生了什么?

他的要求从英国启程,穿过海底光缆,落在贵州的数据中内心。GPU起头工作,电扇起头转,电表起头跳。几秒钟后,了局原路返回。整个过程中,没有一度电脱离过中国的电网,但这度电的价值,已经通过API账单,以token的大局实现了跨境结算。

某种意思上,这是一种全新状态的“出口”对不合?

中国从前出口日用品、衬衫、家电,后来是电动车,但这些都是实物要过海关。Token出海不必要集装箱,甚至不必要任何实体商品离建国境。电力在本地亏损,算力在本地运行,但创造的价值通过互联网,瞬间交付到全球任何一个开发者手上。有人把这叫做“电力出海”,固然电没出去,但电的价值出去了。

那么一个天然的问题是:中国token能卖这么便宜,好多人的第一反映是电价,这种状态会一向持续下去吗?现实情况还挺复杂。GMI Cloud首创人Alex在GTC现场给了我们一个很直率的判断:美国其实不缺电,缺的是输送能力。

Alex Yeh GMI Cloud首创人 瓶颈还是在能源供给端,现实上美国不缺电,缺的是distribution power(配电能力)。高压电上有好多电,天然气一烧就能发电,但问题是distribution(分配),你要把电传输到一个点,这必要大量审批,要建变电站,从330kV一路降到400V或800V,这个过程极度冗长,光是拿审批就烦到爆炸。

现实上,中美电力成本的绝对值差距并不大,中国工业用电0.4-0.6元/度,美国0.8-1.2元/度,中美双方的工业电价差距其实没有设想中那么大,真正拉开差距的是基础设施的响应速度:中国能够在西部戈壁里铺满光伏板,再通过特高压电网把电送到东部的算力集群。

所以从电力角度看,美国的token价值一时半会很难降好多。同时,Alex以为,从存储等供给链角度看,token价值短期内更难降落。

Alex Yeh GMI Cloud首创人 DDR4的DRAM价值,是一年前的10倍。此刻CX7也在缺货、电源供给和CPU也起头在缺货,各个供给链都起头缺货。我看到OpenClaw的起来、agent起来、多模态的起来以及编程的起来,刚好这三个是一个美满的风暴,所有的供给链就跟不上这个节拍。钱宇靖 GMI Cloud工程主管 最大的挑战还是建足够多的数据中心,这是物理上的限度,提效当然也极度沉要。每一个云服务商城市紧跟技术迭代的措施去提升token效能、降低延长,但最终我们都被限度在一件事上:我们一共有几多数据中心、有几多卡、通了几多电。

这波出海盈利,已经实切其实地反映在了收入上。如今MiniMax海表收入占比超过七成,月之暗面在Kimi K2.5颁布后,短短数周内收入就超过了2025年整年,智谱的模型API收入也在今年出现了发作式增长。而token需要的天花板目前底子还看不到。

钱宇靖 GMI Cloud工程主管 每一个event(事务)都触发了token亏损的指数级增长,目前还没有看到显著的天花板。由于此刻并不是每幼我都在用OpenClaw,也没有把生涯中每一个vertical(垂直方向)都AI化,所以整体token consumption(消费)还会持续增长,就像老黄说的,未来的潜力还是极度大,目前看不到天花板。

各人想想看,此刻大部门人还只是偶然用用OpenClaw,大部门行业还远约有被Agent渗入。但趋向已经很分了然:token的亏损在从“人类自动提议”造成“机械自动运行”。一个法式员手动用AI编程副手,一天可能烧几十万token。但一旦他配了一个Agent全天候在后盾跑:写代码、查资料、跑测试、发部署,亏损量能够直接跳到千万级。倒剽种使用方式从少数极客扩散到通常开发者,再扩散到每一个知识工作者,token的需要增长就是指数级此外增长了。

若是用一句话来概括这个趋向:若是上一个时期中国出口的是衬衫和家电,这个时期是电动车,那下一个时期可能就是token。

回到开头的问题:token到底意味着什么?

对Meta员工来说,它是排行榜上的勋章。对创业公司来说,它是每个月最大的一笔开支。对OpenRouter来说,它是抽5%佣金的流水。对中国的云厂商来说,它是把电力造成美元的管路。对于黄仁勋来说,Token会造成大量商品,每一个输入和输出都与芯片挂钩。

钱宇靖 GMI Cloud工程主管 我感触这是一个正常的发展方向。就像我说的,token是一种commodity(大量商品),那人类汗青上对于销售commodity(大量商品)出现过的所有销售方式,都能够预计会在token上沉现。所以最后就是看谁更有创意、谁的市场打得更好,由于只有底层模型技术过硬,它们的accuracy(正确性)现实上不会有太大区别。

未来,Token就会是一种大量商品。而萦绕大量商品,人类几千年来发现过的所有贸易模式:期货、套利、批发零售、聚合平台、计量计费,城市在token身上沉演一遍。同时,token定价的方式也可能会产生巨大的变动,好比说业界也在起头尝试按“复杂度计费”的effort-based pricing模式,或者是按工作实现度计费的task-based pricing模式,这都使得token economy的定价方式在未来有着巨大的进化空间。这就像原油到汽油再到续航里程,这中央定价的逻辑,也会在token到工作到业务了局,这条进化蹊径上再复现一遍。

我们在这篇文章里看到的每一个概想和公司,从Token-maxxing到token套利,从OpenRouter到Metronome,性质上都是这个古老逻辑的AI升级版本。

唯一分歧的是速度。这所有不是在几十年里慢慢发展的,而是在几个月内迅速产生的。当你读完这篇文章的时辰,OpenRouter上可能又多了一个新模型冲上了榜单,某家云厂商可能又调了一次价,某个开发者可能又发现了一种新的省token的步骤,而这场游戏才刚刚起头。

注:部门图片起源于网络

【本期节目不组成任何投资建议】

【视频播放渠路】

国内:B站|腾讯|视频号|西瓜|头条|36kr|微博|虎嗅

海表:Youtube

联系PokerStars扑克官网:video@sv101.net

【创作团队】

监造|泓君 陈茜

撰稿 |Edward

编纂/主持 |陈茜

剪辑|Jacob

运营|孙泽平

@林柏娟:蛋蛋小子派奇,郑丽文拍桌怒骂赖清德半幼时
@杜淳骏:珠峰南坡在批量“诳骗”全球中产吗
@李佳莹:宠物险告白现“女性私密部位”

【网站地图】