制造焦虑！这些大模型_老虎社区_美港股上老虎 - 老虎社区

DeepValueMaking

制造焦虑！这些大模型大厂光靠自己那点流量能做多大？

阿里字节“围猎”智谱、MiniMax：Token到底该由谁来定价？

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

精彩评论

我们需要你的真知灼见来填补这片空白

发表看法

1

{"i18n":{"language":"zh_CN"},"detailType":1,"isChannel":false,"data":{"magic":2,"id":554074108303408,"tweetId":"554074108303408","gmtCreate":1776306638359,"gmtModify":1776306641028,"author":{"id":3516613750658094,"idStr":"3516613750658094","authorId":3516613750658094,"authorIdStr":"3516613750658094","name":"DeepValueMaking","avatar":"https://static.tigerbbs.com/0a41dde8572c0ebfaa895f829b9231e5","vip":1,"userType":1,"introduction":"","boolIsFan":false,"boolIsHead":false,"crmLevel":6,"crmLevelSwitch":1,"currentWearingBadge":{"badgeId":"228c86a078844d74991fff2b7ab2428d-3","templateUuid":"228c86a078844d74991fff2b7ab2428d","name":"投资合伙人虎","description":"证券账户累计交易金额达到100万美元","bigImgUrl":"https://static.tigerbbs.com/fbeac6bb240db7da8b972e5183d050ba","smallImgUrl":"https://static.tigerbbs.com/436cdf80292b99f0a992e78750ac4e3a","grayImgUrl":"https://static.tigerbbs.com/506a259a7b456f037592c3b23c779599","redirectLinkEnabled":0,"hasAllocated":1,"isWearing":1,"stampPosition":0,"hasStamp":0,"allocationCount":1,"allocatedDate":"2021.12.28","exceedPercentage":"93.90%","individualDisplayEnabled":0},"individualDisplayBadges":[],"wearingBadges":[{"badgeId":"228c86a078844d74991fff2b7ab2428d-3","name":"投资合伙人虎","description":"证券账户累计交易金额达到100万美元","smallImgUrl":"https://static.tigerbbs.com/436cdf80292b99f0a992e78750ac4e3a","bigImgUrl":"https://static.tigerbbs.com/fbeac6bb240db7da8b972e5183d050ba","isScarce":0,"effectEnabled":0,"redirectLinkEnabled":0,"redirectLinkValidityFrom":0,"redirectLinkValidityTo":9223372036854776000}],"fanSize":24,"starInvestorFlag":false},"themes":[],"images":[],"coverImages":[],"title":"","html":"<html><head></head><body>制造焦虑！这些大模型大厂光靠自己那点流量能做多大？</body></html>","htmlText":"<html><head></head><body>制造焦虑！这些大模型大厂光靠自己那点流量能做多大？</body></html>","text":"制造焦虑！这些大模型大厂光靠自己那点流量能做多大？","highlighted":1,"essential":1,"paper":1,"likeSize":1,"commentSize":0,"repostSize":0,"favoriteSize":0,"link":"https://laohu8.com/post/554074108303408","repostId":2627693405,"repostType":2,"repost":{"id":"2627693405","kind":"news","pubTimestamp":1776240984,"share":"https://www.laohu8.com/m/news/2627693405?lang=zh_CN&edition=full","pubTime":"2026-04-15 16:16","market":"hk","language":"zh","title":"阿里字节“围猎”智谱、MiniMax：Token到底该由谁来定价？","url":"https://stock-news.laohu8.com/highlight/detail?id=2627693405","media":"蓝鲸财经","summary":"同期，字节的 Token 调用量跻身全球三甲，与 OpenAI、谷歌并列。这个量级本身说明了，Token 已经是一个经济规模指标。此外，Token 的大量消耗使用发生在公有云的统计口径之外。规模之外，Token 的价值结构与生产成本更应该关注。场景，是当前 Token 竞争最激烈的地方。智谱与 MiniMax 的市值一度超过快手等传统互联网公司，充分说明场景窗口在特定阶段能创造的估值溢","content":"<html><head></head><body><p>前不久，Anthropic 停止允许订阅用户通过 OpenClaw 等第三方工具接入 Claude API。理由并不复杂，一个OpenClaw 代理运行一天，消耗的算力成本在1000美元到5000美元之间，而用户每月只付了200美元。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/689ca91f933e022b2b34ebbc7be85409\" tg-width=\"1080\" tg-height=\"657\"/></p><p>Claude Code 负责人 Boris Cherny在 声明里说，订阅服务“并非为这些第三方工具的使用模式而设计”。这句话没有错，但它遮住了一个更基础的问题：没有任何订阅服务能被设计成覆盖这种使用模式。Agent 场景下的 Token 消耗量没有上限，也没有历史数据可以参考，任何固定月费都是在对一个无法建模的变量做猜测。</p><p>3月底，中国国家数据局公布了另一组数字：中国日均 Token 调用量突破140万亿，两年增长超千倍。同期，字节的 Token 调用量跻身全球三甲，与 OpenAI、<a href=\"https://laohu8.com/S/GOOG\">谷歌</a>并列。无问芯穹CEO 夏立雪在一场行业论坛上描述这个增速时说，上一次看到类似的曲线，是3G时代手机流量从每月100MB开始普及的时候。当时没有人预料到，流量放开之后会跑出抖音、微信和外卖。</p><p>两件事放在一起，描述的是同一个现实：Token的消耗正在以罕见的速度增长，但支撑整个行业运转的定价逻辑，依然建立在两年前聊天机器人时代的假设之上，即用户的使用量是可以被历史数据预测的，轻度用户会自然地覆盖重度用户，整体成本可以被摊平。</p><p>智能体们打破了这个假设的每一个前提，市场变化的速度，超过了任何定价模型的响应能力。纵观过去两年 Token 市场的演化，每一个优势窗口的终结，都由同一个逻辑驱动，即当竞争者能够复制优势——规模可以被追赶，算法可以被开源，场景可以被大平台的分发能力碾压。</p><p>目前唯一难以被快速复制的，是将 Token 效率内化为产品架构、定价逻辑和工程文化的能力。而在这件事上真正做到体系化的，只有 Anthropic。</p><h2 id=\"id_3728333552\">失去意义的平均价格</h2><p>Token 之所以不同于电力、钢铁等传统生产要素，在于它具备独一无二的“可编程性”。没有任何一种传统生产要素，能仅凭“指令不同”就将自身价值改变十万倍。这种可编程性，是 Token 作为新型生产要素的本质特征，也是理解当前 AI 经济混乱的前提。</p><p>理解这一点，需要先建立量级感。36氪报道，OpenAI API 日均处理约21.6万亿 Token，<a href=\"https://laohu8.com/S/GOOGL\">谷歌</a>Gemini 日均约43万亿，而中国的140万亿约为前两者之和的两倍有余。<a href=\"https://laohu8.com/S/JPM\">摩根大通</a>预测，仅中国的AI推理 Token 消耗，就将在五年内再增370倍。这个量级本身说明了，Token 已经是一个经济规模指标。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/205106bb7b1b5339dcefbbd9b0d86cee\" tg-width=\"1080\" tg-height=\"654\"/></p><p>此外，Token 的大量消耗使用发生在公有云的统计口径之外。金融机构在本地服务器上跑票据识别，车端智能座舱的对话在车内闭环完成，工业机器人的视觉模型以毫秒级响应运行在边缘设备上，这些都不会出现在任何公开数据里。一位从业者估算，非公有云API的调用量至少是公有云的五到十倍。</p><p>规模之外，Token 的价值结构与生产成本更应该关注。黄仁勋今年3月在一篇署名文章里把AI产业拆成五层：能源、芯片、基础设施、模型、应用，并将 Token 定义为现代 AI 的基本单位，也是AI的语言和货币。这个定义的精妙之处在于，它同时指向了Token的两种属性：作为语言，它是计算过程的原子；作为货币，它是价值流通的媒介。</p><p>但生产一个 Token 的代价，远比这个定义看起来复杂。据 Sam Altman 和 Epoch AI 披露，ChatGPT 发送一条文本提示大约消耗0.3瓦时。谷歌搜索的耗电量（0.03瓦时）仅为其一小部分。谷歌2025年也曾披露，Gemini发送一条典型的文本提示大约消耗0.24瓦时，并产生约 0.03 克二氧化碳。</p><p>随着模型复杂度的增加，推理成本也相应上升。GPT-5级别的系统每次查询可能消耗约18瓦时，而进行扩展推理时则可能消耗高达40瓦时。 差距来自两个地方，一是模型大小，参数越多，生成每一个Token所需的计算量就越大；二是推理模式，新一代模型在输出每一个可见 Token 之前，会在内部进行大量隐式推演，用户看到一个字，模型内部可能已经“想”了上百步。单个可见 Token 的真实成本，被这个思考过程成倍放大了。</p><p>这是 Token 与电力、石油这类生产要素的根本区别，Token的价值并不由生产成本决定，而完全由使用场景决定。同样一百万个 Token，用于闲聊，市场价约0.01美元；用于代码生成，可以值200美元；用于法律文件审查，价值可能超过1000美元，价值差距达十万倍。耶鲁大学研究者将这一特征描述为 Token 的“可合同化”属性：数量可以精确计量，但价值取决于它被编程去做什么。</p><p>当整个行业用同一个价格逻辑去覆盖价值差距十万倍的使用场景时，系统性的定价混乱就不是偶然，而是必然。</p><p>因此，所谓平均 Token 价格，就像用平均客单价来描述一个既有路边摊又有米其林餐厅的商圈，即便数字正确，但毫无意义。Collis 和 Brynjolfsson 曾在2025年的估算显示，生成式AI在2024年仅为美国消费者创造的消费者剩余就高达约970亿美元，用户实际获得的价值，远超过他们支付的金额。这个数字的绝大部分，集中在高价值应用场景。</p><h2 id=\"id_4224740284\">Token经济的窗口期正在合拢</h2><p>在 Token 经济中，竞争优势是跟随技术跃迁、产品形态转变与市场结构共同决定的时间窗口。每一个窗口的受益者，都在无意识中为下一个颠覆者铺路，而能在多个窗口连续卡位的玩家，才是真正的赢家。</p><p>2025年初，算法是 Token 第一个窗口。DeepSeek V3 发布后，混合专家架构（MoE）将同等能力的推理成本压低了一个数量级：模型内部包含多个专家子模块，每次推理只激活其中一小部分，在保留完整模型能力的同时，将单次推理的实际计算量大幅压缩，将推理成本下降了一个数量级。</p><p>但算法窗口的悖论在于，打开它的那把钥匙，同时也是关上它的锁。DeepSeek 选择了开源，将核心模型权重和架构设计公开，吸引全球开发者接入生态。这个选择在短期内快速扩大了市场份额，在中长期则主动压缩了算法领先的窗口期。当架构创新被开源，整个行业的 Token 成本基准被同步重置，算法优势也就从专有壁垒变成了公共基础设施。</p><p>同年底，规模成为第二个窗口。火山引擎将互联网流量战的打法平移了过来，用大规模的机场广告宣告自己在 Token 市场的存在。谭待在4月2日的最新的业务进展分享中提到，两年之内，火山引擎的 Token 调用量增长了1000倍，万亿级 Token 消耗企业增至140家。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/0b9930482c3809b9a5c292e370826826\" tg-width=\"1080\" tg-height=\"582\"/></p><p>不过规模优势存在一定时效性，谭待在接受《第一财经》的采访时也谈到，在 Token 大规模调用量中，包含了大量无效算力。谭待以解数学题为例：枚举法计算量大，模型能力不足就会采用类似方式，造成无谓消耗；更优秀的模型能找到简洁解法，优化空间很大。规模数字的背面，是大量本可以避免的算力浪费。当竞争从“消耗了多少”转向“每个Token创造了多少价值”时，规模窗口就开始关闭。</p><p>场景，是当前 Token 竞争最激烈的地方。<a href=\"https://laohu8.com/S/02513\">智谱</a>、MiniMax、月之暗面没有字节的流量规模，也没有<a href=\"https://laohu8.com/S/BABA\">阿里</a>、<a href=\"https://laohu8.com/S/00700\">腾讯</a>的云计算生态，但它们在 To B 高价值场景里找到了立足点。智谱与 MiniMax 的市值一度超过<a href=\"https://laohu8.com/S/01024\">快手</a>等传统互联网公司，充分说明场景窗口在特定阶段能创造的估值溢价有多大。</p><p>但这个窗口如今也正在收窄。在一场行业论坛上，杨植麟问智谱CEO 张鹏：你们为什么涨价？张鹏的回答是，完成一个 Agent 任务消耗的 Token 量，是回答简单问题的十倍甚至百倍；长期依赖低价竞争，对整个行业都没有好处。</p><p>这场对话背后，一场更大规模的场景争夺战正在展开。字节通过飞书和扣子（Coze）平台，将大模型能力直接嵌入企业的协同工作流与海量流量节点；腾讯依托微信生态与企业微信，掌握着企业触达并服务客户的最短社交链路；<a href=\"https://laohu8.com/S/09988\">阿里</a>则将旗下 AI 业务统筹为 ATH 事业群，Token 消耗被直接打包成企业数字化底座的一部分。</p><p>这三家公司拥有在企业端已经建立多年的信任关系和系统整合能力。独立厂商依赖模型质量差异维系的场景优势，正在被这种结构性优势快速压缩。</p><p>Token效率是当前正在形成的第四个窗口，也是最难被快速复制的一个。这一窗口的竞争，目前集中在 Coding 场景。Anthropic 封禁第三方工具后，大量习惯于低成本接入 Claude 的用户开始寻找替代方案。OpenAI 迅速将自己定位成更易上手的选择。但 Anthropic 押注的是训练和运行模型的效率，OpenAI 的心态是奥特曼总能筹集到更多资金支持算力规模。</p><p>用资本堆算力换市场份额，是一种可以奏效但难以持续的策略。截至今年3月底，OpenAI 的 API 每分钟处理量已突破150亿 Token，而2025年10月这个数字还是60亿。但算力供给的增速远远跟不上，GPU 租赁价格在两个月内涨了48%，<a href=\"https://laohu8.com/S/NVDA\">英伟达</a>最新一代 Blackwell 芯片的每小时租用费用已升至4.08美元，数据中心的建设周期以年计算。OpenAI 甚至部分暂停了 Sora 视频生成工具，腾出计算资源给编码和企业级产品。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/d3fbb05a73e955ab5739164dbaa88870\" tg-width=\"1080\" tg-height=\"559\"/></p><p>Anthropic 看到的是 Harness Engineering 这条路，通过重新设计 Agent 的调度架构，从系统层面减少无效 Token 消耗，让更少的算力做更多的事。这是在算力稀缺的现实约束下，重新定义效率本身的含义。</p><p>而在中国市场，阿里云也开始切入效率窗口，其将 Token 的定价、调用追踪与企业账单管理整合进统一的云计算基础设施。吴泳铭提到，很多企业已经不把 Token 消耗当IT预算，而是当作生产资料和研发成本来核算。这是一种更慢的建法，但也更难被颠覆。</p><p>在算力供给触及物理极限、需求仍在加速增长的现实下，真正稀缺的不是便宜的 Token，而是在有限算力约束下能产出最高价值密度的 Token。</p><h2 id=\"id_1575408226\">封禁OpenClaw，只是结果</h2><p>在算力稀缺、定价体系失效、Agent 消耗失控的多重压力下，Anthropic 是迄今为止唯一一家不只是调整了定价策略，还从工程架构层面重新回答了“Agent应该怎么运行”这个问题的公司。封禁是被动应对，Managed Agents 才是主动给出的答案。</p><p>Harness 是 Agent 框架的调度层，负责决定何时调用模型、如何管理上下文、出错时怎么处理。在 Chatbot 时代，这套逻辑相对简单。进入 Agent 时代后，Harness 开始承载更复杂的任务，也开始产生大量本不必要的 Token 消耗。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/e25b47cb3c6663c13b11353e7fc270f2\" tg-width=\"1080\" tg-height=\"824\"/></p><p>Anthropic 工程博客提供了一个具体案例，Claude Sonnet 4.5，存在一种被工程师称为“上下文焦虑”的行为当模型感知到上下文窗口接近上限时，会提前终止任务。Harness为此添加了上下文重置机制，在适当时机强制清除并重载上下文，以确保任务继续。这在当时是合理的工程补丁。</p><p>问题发生在 Claude Opus 4.5 上线之后。新模型已经不再出现“上下文焦虑”，但旧的重置机制仍在每次执行时触发，消耗着不必要的 Token，增加着不必要的延迟。这些机制从解决问题的补丁，变成了制造成本的负担。Anthropic 工程师将其称为“死重”。</p><p>这是 Harness 框架的结构性缺陷：每一套 Harness 都是对某一时刻模型能力的快照。模型在持续进化，但快照被当作永久规则执行。模型迭代越快，这种错位就越严重。</p><p>在商业场景里，这个问题被进一步放大。OpenClaw 在处理单次用户查询时，实际产生的 API 请求数量是 Claude Code 官方框架的数倍，每次请求携带超过10万 Token 的上下文窗口。换算成 API 费率，单次查询的真实成本是订阅价格的几十倍。无论个人的主观使用频次高低，通过这类框架发起的请求，天然具有重度用户的成本画像。平台对重度用户的补贴，由此从概率问题变成了确定性问题。</p><p>Anthropic 的应对是 Managed Agents，核心思路是为 Agent 领域建立接口稳定，实现自由替换的抽象层。“上下文焦虑”消失了，对应的重置机制自然退场，不会留下“死重”。内部测试数据显示，在结构化文件生成任务中，Managed Agents 将任务成功率提升了最高10个百分点，提升最显著的是最难的任务。</p><p>同期出现的 Hermes Agent，从另一个方向印证了同一个判断。这个强调“闭环学习循环”的框架，在更新已积累的操作流程文件时，选择以 patch 方式写入，只传入需要修改的具体字段，而非重写整个文件。patch只触碰问题所在，Token 消耗也更少。这是 Token 效率意识在框架设计层面最具体的体现之一。</p><p>Token 经济的新竞争，已经细微到“谁能让每一个 Token 产出更高的价值”。罗福莉在自己那篇浏览量超过73w+的帖子最后写道，真正的出路不是更便宜的 Token，而是模型和 Agent 的协同进化。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/a435ee106cb39de7f688b055372e8894\" tg-width=\"669\" tg-height=\"1544\"/></p><p>这句话说的不只是技术路线，也包括整个行业定价逻辑应该完成的转变：从按量计费，到按价值定价；从管理成本，到创造结果，这是整个行业需要完成的转变。</p><p>Anthropic 在 Harness 架构上的探索，给出了目前最清晰的一个方向。但中间这段路，还很长。 </p></body></html>","source":"lanjinger_stock","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>阿里字节“围猎”智谱、MiniMax：Token到底该由谁来定价？</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n阿里字节“围猎”智谱、MiniMax：Token到底该由谁来定价？\n</h2>\n\n<h4 class=\"meta\">\n\n\n2026-04-15 16:16 北京时间&nbsp;&nbsp;&nbsp;<a href=https://www.lanjinger.com/d/1776166185408196183><strong>蓝鲸财经</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>前不久，Anthropic 停止允许订阅用户通过 OpenClaw 等第三方工具接入 Claude API。理由并不复杂，一个OpenClaw 代理运行一天，消耗的算力成本在1000美元到5000美元之间，而用户每月只付了200美元。Claude Code 负责人 Boris Cherny在 声明里说，订阅服务“并非为这些第三方工具的使用模式而设计”。这句话没有错，但它遮住了一个更基础的问题：没有...</p>\n\n<a href=\"https://www.lanjinger.com/d/1776166185408196183\">网页链接</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/b5e339ee6610a793d944481f18242b36","relate_stocks":{"LU0553294199.USD":"BGF GLOBAL EQUITY INCOME \"A5G\" (USD) INC","LU0880133367.SGD":"UBS (LUX) EQUITY FUND CHINA OPPORTUNITY USD \"P\" (SGD) ACC","BK4581":"高盛持仓","LU0738911758.USD":"Blackrock Global Equity Income A6 USD","BK4543":"AI","LU0918141887.USD":"安联亚洲实际收益股票基金","BK4531":"中概回港概念","IE00B0JY6N72.USD":"PINEBRIDGE GLOBAL EMERGING MARKETS FOCUS EQUITY \"A\" (USD) ACC","BK4534":"瑞士信贷持仓","LU0251143458.SGD":"Fidelity Emerging Markets A-SGD","BK4533":"AQR资本管理(全球第二大对冲基金)","LU1242518857.USD":"FULLERTON LUX FUNDS - ASIA ABSOLUTE ALPHA \"I\" (USD) ACC","LU1046421795.USD":"富达环球科技A-ACC","LU1267930227.SGD":"TEMPLETON GLOBAL BALANCED \"AS\" (SGD) ACC A","BK4535":"淡马锡持仓","LU0310800965.SGD":"FTIF - Templeton Global Balanced A Acc SGD","LU0651946864.USD":"贝莱德新兴市场股票收益A2","BK4538":"云计算","LU1880383366.USD":"东方汇理中国股票基金 A2 (C)","LU1051768304.USD":"贝莱德新兴市场股票收益A6","LU0979878070.USD":"FULLERTON LUX FUNDS - ASIA ABSOLUTE ALPHA \"A\" (USD) ACC","LU1008478684.HKD":"UBS (LUX) EQUITY FUND -  CHINA OPPORTUNITY \"P\" (HKD) ACC","BK4548":"巴美列捷福持仓","LU1515016050.SGD":"Blackrock Emerging Markets Equity Income A6 SGD-H","LU0106959298.USD":"UBS (LUX) EQUITY FUND - EMERGING MARKETS SUSTAINABLE LEADERS (USD) \"P\" (USD) ACC","LU0456842615.SGD":"JPMorgan Funds - Emerging Markets Equity A (acc) SGD","LU0128525689.USD":"TEMPLETON GLOBAL BALANCED \"A\"(USD) ACC","LU0661504455.SGD":"Blackrock Global Equity Income A5 SGD-H","BK4554":"元宇宙及AR概念","LU1048596156.SGD":"Blackrock Asian Growth Leaders A2 SGD-H","LU0545039389.USD":"BGF GLOBAL EQUITY INCOME \"A2\" ACC","BK4585":"ETF&股票定投概念","LU1152091168.USD":"UBS (LUX) EQUITY FUND - CHINA OPPORTUNITY (USD) \"PM\" INC","LU1046422090.SGD":"Fidelity Pacific A-SGD","BK4558":"双十一","BK4587":"ChatGPT概念","BK1117":"系统软件","LU0501845795.SGD":"瑞银大中华区股票基金P Acc SGD","02513":"智谱","IE00BF5LJ272.USD":"Legg Mason Martin Currie - Global Emerging Markets A Acc USD","BK4588":"碎股","LU1688375341.USD":"贝莱德中国灵活股票基金","LU1823568750.SGD":"Fidelity Global Technology A-ACC SGD","LU2148611432.USD":"AZ ALLOCATION BALANCED BRAVE \"AAZ\" (USDHDG) ACC","LU0797268264.HKD":"ALLIANZ TOTAL RETURN ASIAN EQUITY \"AT\" (HKD) ACC","BK4565":"NFT概念","LU0348816934.USD":"ALLIANZ TOTAL RETURN ASIAN EQUITY \"AT\" (USD)","LU1235294995.USD":"FIDELITY GLOBAL TECHNOLOGY \"A\" (USDHDG) ACC","LU1769817096.USD":"UBS (LUX) EQUITY SICAV - GLOBAL EMERG MARKETS OPPO \"P\" (USD) INC","IE00BFMHRM44.USD":"NEUBERGER BERMAN GLOBAL EQUITY MEGATRENDS \"A\" (USD) ACC","LU1282648689.USD":"ALLIANZ TOTAL RETURN ASIAN EQUITY \"AMG\" (USD) INC","LU1769817179.HKD":"UBS (LUX) EQUITY SICAV - GLOBAL EMERG MARKETS OPPO \"P\" (HKD) INC","00100":"MINIMAX-WP","BK4503":"景林资产持仓","BK4502":"阿里概念","LU0047713382.USD":"BGF EMERGING MARKETS \"A2\" ACC","BK4505":"高瓴资本持仓","LU1051769294.HKD":"BGF EMERGING MARKETS EQUITY INCOME \"A6\"(HKDHDG) INC","BK4504":"桥水持仓","LU0067412154.USD":"UBS (LUX) EQUITY FUND -  CHINA OPPORTUNITY \"P\" (USD) ACC","LU1152091754.HKD":"UBS (LUX) EQUITY FUND - CHINA OPPORTUNITY (USD) \"PM\" (HKD) INC","LU2226246903.HKD":"ALLIANZ TOTAL RETURN ASIAN EQUITY \"AT4\" (HKD) ACC","LU1048588211.SGD":"Blackrock Asian Dragon A2 SGD-H","LU0072462343.USD":"贝莱德亚洲巨龙基金","LU0052756011.USD":"TEMPLETON GLOBAL BALANCED \"A\" (USD) INC","LU1105468828.SGD":"Allianz Total Return Asian Equity AM DIS H2-SGD","BK4607":"DeepSeek概念股","LU0072913022.USD":"UBS (LUX) EQUITY FUND -  GREATER CHINA \"P\" (USD) ACC","BK4220":"综合零售","BK4524":"宅经济概念","LU0918141705.HKD":"ALLIANZ TOTAL RETURN ASIAN EQUITY \"AM\" (HKD) INC","BK4527":"明星科技股","LU0821914370.USD":"贝莱德亚洲成长领袖A2","BK4526":"热门中概股","LU1242518931.SGD":"Fullerton Lux Funds - Asia Absolute Alpha A Acc SGD","LU0651947912.USD":"BGF EMERGING MARKETS EQUITY INCOME \"A5G\" (USD) INC","BK4122":"互联网与直销零售","BK4575":"芯片概念","LU0348814723.USD":"ALLIANZ TOTAL RETURN ASIAN EQUITY \"A\" (USD) INC  NC","LU0328353924.USD":"UBS (LUX) EQUITY SICAV - GLOBAL EMERGING MARKETS OPPORTUNITY (USD) \"P\" (USD) ACC","BABA":"阿里巴巴","09988":"阿里巴巴-W","BK4579":"人工智能","BK4614":"Manus概念股","LU0949170772.SGD":"Blackrock Global Equity Income A6 SGD-H","LU1003077747.HKD":"BGF GLOBAL EQUITY INCOME \"A6\" (HKDHDG) INC"},"source_url":"https://www.lanjinger.com/d/1776166185408196183","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"2627693405","content_text":"前不久，Anthropic 停止允许订阅用户通过 OpenClaw 等第三方工具接入 Claude API。理由并不复杂，一个OpenClaw 代理运行一天，消耗的算力成本在1000美元到5000美元之间，而用户每月只付了200美元。Claude Code 负责人 Boris Cherny在 声明里说，订阅服务“并非为这些第三方工具的使用模式而设计”。这句话没有错，但它遮住了一个更基础的问题：没有任何订阅服务能被设计成覆盖这种使用模式。Agent 场景下的 Token 消耗量没有上限，也没有历史数据可以参考，任何固定月费都是在对一个无法建模的变量做猜测。3月底，中国国家数据局公布了另一组数字：中国日均 Token 调用量突破140万亿，两年增长超千倍。同期，字节的 Token 调用量跻身全球三甲，与 OpenAI、谷歌并列。无问芯穹CEO 夏立雪在一场行业论坛上描述这个增速时说，上一次看到类似的曲线，是3G时代手机流量从每月100MB开始普及的时候。当时没有人预料到，流量放开之后会跑出抖音、微信和外卖。两件事放在一起，描述的是同一个现实：Token的消耗正在以罕见的速度增长，但支撑整个行业运转的定价逻辑，依然建立在两年前聊天机器人时代的假设之上，即用户的使用量是可以被历史数据预测的，轻度用户会自然地覆盖重度用户，整体成本可以被摊平。智能体们打破了这个假设的每一个前提，市场变化的速度，超过了任何定价模型的响应能力。纵观过去两年 Token 市场的演化，每一个优势窗口的终结，都由同一个逻辑驱动，即当竞争者能够复制优势——规模可以被追赶，算法可以被开源，场景可以被大平台的分发能力碾压。目前唯一难以被快速复制的，是将 Token 效率内化为产品架构、定价逻辑和工程文化的能力。而在这件事上真正做到体系化的，只有 Anthropic。失去意义的平均价格Token 之所以不同于电力、钢铁等传统生产要素，在于它具备独一无二的“可编程性”。没有任何一种传统生产要素，能仅凭“指令不同”就将自身价值改变十万倍。这种可编程性，是 Token 作为新型生产要素的本质特征，也是理解当前 AI 经济混乱的前提。理解这一点，需要先建立量级感。36氪报道，OpenAI API 日均处理约21.6万亿 Token，谷歌Gemini 日均约43万亿，而中国的140万亿约为前两者之和的两倍有余。摩根大通预测，仅中国的AI推理 Token 消耗，就将在五年内再增370倍。这个量级本身说明了，Token 已经是一个经济规模指标。此外，Token 的大量消耗使用发生在公有云的统计口径之外。金融机构在本地服务器上跑票据识别，车端智能座舱的对话在车内闭环完成，工业机器人的视觉模型以毫秒级响应运行在边缘设备上，这些都不会出现在任何公开数据里。一位从业者估算，非公有云API的调用量至少是公有云的五到十倍。规模之外，Token 的价值结构与生产成本更应该关注。黄仁勋今年3月在一篇署名文章里把AI产业拆成五层：能源、芯片、基础设施、模型、应用，并将 Token 定义为现代 AI 的基本单位，也是AI的语言和货币。这个定义的精妙之处在于，它同时指向了Token的两种属性：作为语言，它是计算过程的原子；作为货币，它是价值流通的媒介。但生产一个 Token 的代价，远比这个定义看起来复杂。据 Sam Altman 和 Epoch AI 披露，ChatGPT 发送一条文本提示大约消耗0.3瓦时。谷歌搜索的耗电量（0.03瓦时）仅为其一小部分。谷歌2025年也曾披露，Gemini发送一条典型的文本提示大约消耗0.24瓦时，并产生约 0.03 克二氧化碳。随着模型复杂度的增加，推理成本也相应上升。GPT-5级别的系统每次查询可能消耗约18瓦时，而进行扩展推理时则可能消耗高达40瓦时。 差距来自两个地方，一是模型大小，参数越多，生成每一个Token所需的计算量就越大；二是推理模式，新一代模型在输出每一个可见 Token 之前，会在内部进行大量隐式推演，用户看到一个字，模型内部可能已经“想”了上百步。单个可见 Token 的真实成本，被这个思考过程成倍放大了。这是 Token 与电力、石油这类生产要素的根本区别，Token的价值并不由生产成本决定，而完全由使用场景决定。同样一百万个 Token，用于闲聊，市场价约0.01美元；用于代码生成，可以值200美元；用于法律文件审查，价值可能超过1000美元，价值差距达十万倍。耶鲁大学研究者将这一特征描述为 Token 的“可合同化”属性：数量可以精确计量，但价值取决于它被编程去做什么。当整个行业用同一个价格逻辑去覆盖价值差距十万倍的使用场景时，系统性的定价混乱就不是偶然，而是必然。因此，所谓平均 Token 价格，就像用平均客单价来描述一个既有路边摊又有米其林餐厅的商圈，即便数字正确，但毫无意义。Collis 和 Brynjolfsson 曾在2025年的估算显示，生成式AI在2024年仅为美国消费者创造的消费者剩余就高达约970亿美元，用户实际获得的价值，远超过他们支付的金额。这个数字的绝大部分，集中在高价值应用场景。Token经济的窗口期正在合拢在 Token 经济中，竞争优势是跟随技术跃迁、产品形态转变与市场结构共同决定的时间窗口。每一个窗口的受益者，都在无意识中为下一个颠覆者铺路，而能在多个窗口连续卡位的玩家，才是真正的赢家。2025年初，算法是 Token 第一个窗口。DeepSeek V3 发布后，混合专家架构（MoE）将同等能力的推理成本压低了一个数量级：模型内部包含多个专家子模块，每次推理只激活其中一小部分，在保留完整模型能力的同时，将单次推理的实际计算量大幅压缩，将推理成本下降了一个数量级。但算法窗口的悖论在于，打开它的那把钥匙，同时也是关上它的锁。DeepSeek 选择了开源，将核心模型权重和架构设计公开，吸引全球开发者接入生态。这个选择在短期内快速扩大了市场份额，在中长期则主动压缩了算法领先的窗口期。当架构创新被开源，整个行业的 Token 成本基准被同步重置，算法优势也就从专有壁垒变成了公共基础设施。同年底，规模成为第二个窗口。火山引擎将互联网流量战的打法平移了过来，用大规模的机场广告宣告自己在 Token 市场的存在。谭待在4月2日的最新的业务进展分享中提到，两年之内，火山引擎的 Token 调用量增长了1000倍，万亿级 Token 消耗企业增至140家。不过规模优势存在一定时效性，谭待在接受《第一财经》的采访时也谈到，在 Token 大规模调用量中，包含了大量无效算力。谭待以解数学题为例：枚举法计算量大，模型能力不足就会采用类似方式，造成无谓消耗；更优秀的模型能找到简洁解法，优化空间很大。规模数字的背面，是大量本可以避免的算力浪费。当竞争从“消耗了多少”转向“每个Token创造了多少价值”时，规模窗口就开始关闭。场景，是当前 Token 竞争最激烈的地方。智谱、MiniMax、月之暗面没有字节的流量规模，也没有阿里、腾讯的云计算生态，但它们在 To B 高价值场景里找到了立足点。智谱与 MiniMax 的市值一度超过快手等传统互联网公司，充分说明场景窗口在特定阶段能创造的估值溢价有多大。但这个窗口如今也正在收窄。在一场行业论坛上，杨植麟问智谱CEO 张鹏：你们为什么涨价？张鹏的回答是，完成一个 Agent 任务消耗的 Token 量，是回答简单问题的十倍甚至百倍；长期依赖低价竞争，对整个行业都没有好处。这场对话背后，一场更大规模的场景争夺战正在展开。字节通过飞书和扣子（Coze）平台，将大模型能力直接嵌入企业的协同工作流与海量流量节点；腾讯依托微信生态与企业微信，掌握着企业触达并服务客户的最短社交链路；阿里则将旗下 AI 业务统筹为 ATH 事业群，Token 消耗被直接打包成企业数字化底座的一部分。这三家公司拥有在企业端已经建立多年的信任关系和系统整合能力。独立厂商依赖模型质量差异维系的场景优势，正在被这种结构性优势快速压缩。Token效率是当前正在形成的第四个窗口，也是最难被快速复制的一个。这一窗口的竞争，目前集中在 Coding 场景。Anthropic 封禁第三方工具后，大量习惯于低成本接入 Claude 的用户开始寻找替代方案。OpenAI 迅速将自己定位成更易上手的选择。但 Anthropic 押注的是训练和运行模型的效率，OpenAI 的心态是奥特曼总能筹集到更多资金支持算力规模。用资本堆算力换市场份额，是一种可以奏效但难以持续的策略。截至今年3月底，OpenAI 的 API 每分钟处理量已突破150亿 Token，而2025年10月这个数字还是60亿。但算力供给的增速远远跟不上，GPU 租赁价格在两个月内涨了48%，英伟达最新一代 Blackwell 芯片的每小时租用费用已升至4.08美元，数据中心的建设周期以年计算。OpenAI 甚至部分暂停了 Sora 视频生成工具，腾出计算资源给编码和企业级产品。Anthropic 看到的是 Harness Engineering 这条路，通过重新设计 Agent 的调度架构，从系统层面减少无效 Token 消耗，让更少的算力做更多的事。这是在算力稀缺的现实约束下，重新定义效率本身的含义。而在中国市场，阿里云也开始切入效率窗口，其将 Token 的定价、调用追踪与企业账单管理整合进统一的云计算基础设施。吴泳铭提到，很多企业已经不把 Token 消耗当IT预算，而是当作生产资料和研发成本来核算。这是一种更慢的建法，但也更难被颠覆。在算力供给触及物理极限、需求仍在加速增长的现实下，真正稀缺的不是便宜的 Token，而是在有限算力约束下能产出最高价值密度的 Token。封禁OpenClaw，只是结果在算力稀缺、定价体系失效、Agent 消耗失控的多重压力下，Anthropic 是迄今为止唯一一家不只是调整了定价策略，还从工程架构层面重新回答了“Agent应该怎么运行”这个问题的公司。封禁是被动应对，Managed Agents 才是主动给出的答案。Harness 是 Agent 框架的调度层，负责决定何时调用模型、如何管理上下文、出错时怎么处理。在 Chatbot 时代，这套逻辑相对简单。进入 Agent 时代后，Harness 开始承载更复杂的任务，也开始产生大量本不必要的 Token 消耗。Anthropic 工程博客提供了一个具体案例，Claude Sonnet 4.5，存在一种被工程师称为“上下文焦虑”的行为当模型感知到上下文窗口接近上限时，会提前终止任务。Harness为此添加了上下文重置机制，在适当时机强制清除并重载上下文，以确保任务继续。这在当时是合理的工程补丁。问题发生在 Claude Opus 4.5 上线之后。新模型已经不再出现“上下文焦虑”，但旧的重置机制仍在每次执行时触发，消耗着不必要的 Token，增加着不必要的延迟。这些机制从解决问题的补丁，变成了制造成本的负担。Anthropic 工程师将其称为“死重”。这是 Harness 框架的结构性缺陷：每一套 Harness 都是对某一时刻模型能力的快照。模型在持续进化，但快照被当作永久规则执行。模型迭代越快，这种错位就越严重。在商业场景里，这个问题被进一步放大。OpenClaw 在处理单次用户查询时，实际产生的 API 请求数量是 Claude Code 官方框架的数倍，每次请求携带超过10万 Token 的上下文窗口。换算成 API 费率，单次查询的真实成本是订阅价格的几十倍。无论个人的主观使用频次高低，通过这类框架发起的请求，天然具有重度用户的成本画像。平台对重度用户的补贴，由此从概率问题变成了确定性问题。Anthropic 的应对是 Managed Agents，核心思路是为 Agent 领域建立接口稳定，实现自由替换的抽象层。“上下文焦虑”消失了，对应的重置机制自然退场，不会留下“死重”。内部测试数据显示，在结构化文件生成任务中，Managed Agents 将任务成功率提升了最高10个百分点，提升最显著的是最难的任务。同期出现的 Hermes Agent，从另一个方向印证了同一个判断。这个强调“闭环学习循环”的框架，在更新已积累的操作流程文件时，选择以 patch 方式写入，只传入需要修改的具体字段，而非重写整个文件。patch只触碰问题所在，Token 消耗也更少。这是 Token 效率意识在框架设计层面最具体的体现之一。Token 经济的新竞争，已经细微到“谁能让每一个 Token 产出更高的价值”。罗福莉在自己那篇浏览量超过73w+的帖子最后写道，真正的出路不是更便宜的 Token，而是模型和 Agent 的协同进化。这句话说的不只是技术路线，也包括整个行业定价逻辑应该完成的转变：从按量计费，到按价值定价；从管理成本，到创造结果，这是整个行业需要完成的转变。Anthropic 在 Harness 架构上的探索，给出了目前最清晰的一个方向。但中间这段路，还很长。","news_type":1,"symbols_score_info":{"BABA":2,"00100":2,"02513":2,"09988":2}},"isVote":1,"tweetType":1,"viewCount":274,"commentLimit":10,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"symbols":[],"verified":2,"subType":0,"readableState":1,"langContent":"CN","currentLanguage":"CN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"andRepostAutoSelectedFlag":false,"upFlag":false,"length":48,"optionInvolvedFlag":false,"xxTargetLangEnum":"ZH_CN"},"commentList":[],"isCommentEnd":true,"isTiger":false,"isWeiXinMini":false,"url":"/m/post/554074108303408"}