建议所有 MaaS厂商开通疯狂星期四套餐

蓝鲸财经
Apr 09

文|象先志

周四是我一周消耗 token 最多的一天,得盘工作进度了吧,得review了吧,得写周报了吧。

打开 Claude Code,输入“帮我总结一下这周的工作”——额度先疯狂了。写完周报33%额度没了。别的活儿还没干呢, token 限额了。

200 刀的套餐,3.5 小时就用完。一个任务恨不得扣掉 30%。

问题是:不知道Token 都花在哪儿了。

前几天,Claude code的代码被乌龙打包上传之后,经 Reddit 用户逆向工程发现,Anthropic 终于承认了:Claude Code 确实在乱扣费。Anthropic 官方终于承认了——在 Reddit 用户爆破式吐槽并甩出逆向工程证据后,官方账号回应:“正在紧急排查,目前是最高优先级问题”。

这是一个工程问题,一方面是Harness 架构虽然能让 AI 能搞定复杂任务,但代价是开销远高于单模型对话;另一方面是 Claude 本身的流量算法确实存在疏漏。

我知道了,agent 在疯狂偷吃我的 token 。要是想得到好的结果,肯定要多喂 token 。

所以国产的 MaaS 们是不是也面临同样情况呢?是不是至少可以保证在AI 们的高峰使用额度提供一个可解决的方案呢?

所以我建议MaaS们每周四开通 token 疯狂星期四,token 畅用,V 我五十助我智能飞升。

应用层的黑箱里藏着什么?

Claude Code 为什么好用?因为他不是单一模型,是一套多智能体流水线。写代码的、评审的、审核的,各跑各的。这些子智能体的 token 消耗,被打包进“一次对话”里。

Harness 架构让 AI 能搞定复杂任务,但是token 开销确实爆炸。据社区测试,复杂任务下的 token 消耗可能是直接调用模型的数倍甚至十倍以上。这个 overhead,被厂商打包进“一次对话”的账单,用户完全感知不到。

更隐蔽的是 Coding Plan 内部的模型调控。Plan Mode、Reviewer、Debugger 这些角色,每次切换都是隐性调用。你以为自己在和“一个 AI”对话,实际上后台可能在五六个子智能体之间来回跳转。

然后是那个被 Reddit 大神逆向出来的真相:两个独立的 cache bug,让 prompt cache 完全失效。这其中存在两个比较要命的 bug 。

Bug 1:Sentinel 替换机制破坏缓存

Claude Code 为了在不同平台(Windows/macOS/Linux)分发,使用了独立的二进制文件。当对话内容涉及计费内部逻辑时,系统会用 sentinel 值替换敏感字段。但问题就出在这里——这种替换破坏了 prompt cache 的哈希一致性,导致缓存明明应该命中,却被判定为未命中,重复计算 token。

Bug 2:Resume 参数强制刷新缓存

从 v2.1.69 版本开始,resume 参数(用于恢复中断的对话)会强制让缓存失效。这意味着只要你中途退出或切换设备,之前的上下文缓存就全部作废,系统会重新计算整个对话历史的 token。对于长上下文的重度用户,这是致命的——每次“继续刚才的对话”,都是在烧钱。

这两个 bug 的叠加效应是灾难性的。假设你让 Claude Code 读一个 GitHub PR,正常情况下缓存应该帮你节省 90% 的重复计算费用。但因为 bug,你每次都按全额付费,成本膨胀 10-20 倍。

所以 harness 结构不仅有着爆炸的消耗,还会因为算法问题,加速计费。

更有意思的是,官方是在用户逆向工程发现 bug 后才出来回应的。正如网友吐槽:“你们拥有世界最好的模型和开发者,却无视成千上万投诉,直到被人拆解了才承认。”

这种“用户先发现,厂商后承认”的模式,在 AI 行业已成惯例。ChatGPT Plus 的历史额度从没退还过,Gemini Advanced 的“变慢”也从不提前通知。Anthropic 的问题不在于出了 bug,而在于缺乏基本的计费可观测性(Observability)——当用户质疑账单时,他们拿不出数据证明自己没错。

对比隔壁的 OpenClaw,几乎是每周一到两更,有问题连夜修。而 Anthropic 的回应速度,暴露了一个残酷现实:当模型能力成为护城河,用户体验和计费透明度就成了可以牺牲的代价。

技术债务被转嫁给了用户。你付的钱里,多少是“真的在用 AI”,多少是“系统在浪费”?没人知道。

国内 MaaS 厂商做的如何?

既然 Claude Code 的应用层是黑箱,那回到国内 MaaS 厂商,他们做得如何?

说实话,国内的 MaaS 们普遍良心多了。至少在 API 层,国内厂商确实拆得更细。但在应用层,大家依然把 Harness/Agent 调度成本藏在黑箱里:

基于 token 本身,可以发现大家的收费都是透明可追溯的,但到了应用层,也就是实际解决问题的时候,似乎还不能做到完全透明,也许是因为大家还基本都在 Openclaw 的框架中没有推陈出新。

从 OpenClaw 的火热开始,各家都开始部署定制的 token 套餐。不过设置限额以及“灵活调配”老旧模型的情况在这些套餐里确实经常发生,以及高峰时段配额不足导致卡顿也是家常便饭,倒闭用户有时候只能通过API按量付费,其实这样会有些本末倒置: 定额套餐不能满足用户,回头又转向了按量付费的旧模式。

可以说,收费透明只停留在 API 层。当你使用agent 调取 token 的时候的 AI 应用,调度成本基本是黑箱。虽然现在如 Kimi 、火山等也在通过额度限制 agent 的使用次数,但是套餐中额度使用完毕后就就能等到刷新。

API 层透明适合开发者,应用层透明适合企业采购——当你需要向老板解释“为什么这个月 AI 花了 2 万块”时,“调用了 500 次深度研究 Agent”比“消耗了 100 万 token”更有说服力。而有意思的是,在这六家中,只有百度将 Agent 成本显性化,其他五家仍把 Harness 调度成本打包在 Token 中。

这不是钱的问题,是“用户是否拥有对自己计算资源的知情权”。

云计算时代,没人会接受“一台服务器 $200/月,但不知道 CPU 和带宽各多少”。

AWS 的账单可以精确到毫秒级的计算时长、字节数的流量消耗、甚至不同可用区的价格差异。可观测性才是云计算成熟的基础。

AI 应用还在蛮荒时代。厂商们把 Harness 调度、多智能体协作包装成“魔法”,把技术债务包装成“使用量”,本质是在剥夺用户的知情权。

用户需要一张明细清晰的账单,至少给一个“调试模式”开关,让开发者可选查看 Harness 调用链;至少对因 bug 导致的计费错误,承诺自动退费而非“正在调查”;至少把“你花了多少钱”和“你应该花多少钱”区分开来。

鉴于现在的 MaaS 厂商的进步步调如此之快,下周疯狂星期四,我希望至少知道我的 Token 是怎么被吃掉的。V 我50,让我多吃两块原味鸡。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10