人民想念DeepSeek

虎嗅APP
Yesterday

Token正在重塑AI时代的价值坐标,它是效率革命的引擎,还是成本失控的暗礁?本期将从Token降本的视角,透视AI时代“新石油”的经济逻辑。本文来自微信公众号:腾讯科技,作者:苏扬,头图来自:AI生成

最近关于Token的讨论挺魔幻的。

朋友圈随处能看到Token中文翻译的讨论——有“词元”“智元”等等,甚至有“慧根”之类的搞笑版本。

Token不是一个新概念,大模型落地第一天起,它便与神经网络共生,但直到OpenClaw(俗称“龙虾”)在用户群大规模扩散,各类Agent应用开始把Token带入了公众视野。

我认为其中有两个关键问题:它的消耗量太大了,价格也太贵了。

记得OpenAI发布GPT-5.4的时候,有用户反馈测试一句“你好”就消耗掉了80美元的Token,当时不少人都说这个使用量太夸张,但随着小龙虾大规模在用户群扩散,一个任务烧完千万级Token成为常态。

与之相对的是,英伟达CEO黄仁勋在GTC2026大会上以及之后的很多场合,都在强调工程师要大量的使用Token,甚至将Token纳入到薪酬激励机制。

一次对话环节,黄仁勋说:“如果年薪50万美元的工程师,连25万美元的Token都没用掉,我会极度恐慌。”

问题是,疯狂的烧Token一定能解决问题吗,有多少Token是有效的,什么样的投入产出比是合理的?

结合刚刚外媒的消息,有OpenAI程序员一周烧掉了2100亿Token,相当于33个维基百科,但这样的消耗量最终带来了什么?我发了一个朋友圈,说这样重度使用能升P10吗,有好友随即评论,“能帮卖Token的升P10。”

很显然,这场疯狂烧Token的运动,能带来多少效果是存疑的,谁是获利者则是确定的。

黄仁勋将英伟达描述为“Token之王”,拥有世界最先进的“Token制造机”,但如果拼命鼓吹这件事,甚至暗示不用Token就会落后,那么可以说:一方面,黄仁勋想彻底改变AI时代企业“效率考核”的逻辑,另一方面,他也间接制造出了Token焦虑。

一、Token太贵了

不久前,我请教了周鸿祎“Token太贵”这个问题,他说:“大家觉得Token贵可能存在些误解,因为大模型后端是可以灵活配置的。”

在他的理解中,用户可以自主选择模型控制成本。“日常聊天对话的成本其实很低。真正消耗Token的是复杂任务,比如帮你生成视频、创作短剧或写小说这类调用场景。”

我记得猎豹移动CEO傅盛在一条视频中说,自己通过一些使用技巧把最初日均几百美元的Token费用,优化到目前日均10多美元,30天就是2100元,年费是25200元。

问题来了:有多少用户承担得起日均10美元的成本?

对比目前中国互联网上的商用to C类软件,比如剪映,高端会员年费也只有600元左右,娱乐相关的会员费用大致在300元左右,根本找不到一款年费超过25000元的消费级软件。

“绝大部分人一天10美金,仍然不会接受,这里会过滤掉大片的非付费用户。”我对傅盛说,他没有否认我的判断。

这些天,我也在尝试各种类型的小龙虾产品,要接触到的费用远不止Token。

举个例子,如果用户对生图有需求,就需要专门的生图模型API;如果要监控动态,也需要接入付费的搜索API,这些潜在的费用会逐步地劝退绝大多数用户。虽然可能有一些开源变通的方式降本,但开源项目就间接隐藏着安全风险。

3月13日,当时腾讯科技“虾聊”系列直播的第一期《鹅厂工程师讲透“龙虾”真相:“笨”不是“虾”的错》,玄武实验室的嘉宾Lambda分享过一个数据——他自己平均每个月“养虾”的费用在千元以上。

不管是参照消费级工具年费,还是行业“养虾户”的反馈,基于Agent的Token消耗说一句“Token太贵了”,是站得住脚的。

二、存储瓶颈与效率黑洞

Token简单理解就是大语言模型处理信息的基本单位——用户输入提示词,模型输出答案,每一个字、每一个标点,都会计入Token的消耗量,本质上还是算力成本。

过去大家计算算力总拥有成本,指标有很多,包括衡量能效的Flops/W,核算均值的成本/Flops等等,今年的“Token经济学”中,Token/W逐步成为共识。

“我们的每一个Token成本都是世界最低的。”黄仁勋在GTC上说。

但不管有多便宜,不管是哪一种计算单位,它都是投入成本量化,涉及到研发成本、硬件成本,部署成本,能耗成本,运营成本等。换句话说,降本也都是围绕上述环节展开。

对于Token降本来说,一个不好的消息是内存价格在疯涨。

以HBM内存为例,它是支撑大模型训练和推理的关键器件,同时,推理数据量的暴涨也引发出了存储需求的同步上涨。2026年第一季度,DRAM的价格环比上涨超过50%,NAND价格环比最高涨幅达到150%。

黄仁勋、苏姿丰都已经喊出了“HBM有多少要多少”,三星美光这些存储原厂,已经对外披露头部客户的战略长约已经签到了5年。

《内存暴涨100天,千元机被迫死亡》一文提到过,消费级市场,千元机库存可能都要停产了,但实际上受这个问题的影响,云厂商目前也处于涨价的煎熬之中。目前行业最乐观的预计是2028年存储价格回落,悲观一点要到2030年。

存储价格一天不回落,Token降价就缺少一个关键的外部杠杆。

模型能力的提升也可以视为降价的另一个杠杆。“现在一些8B的小模型,能力越来越逼近全量大模型。”一位学术界研究员说。

在这方面,面壁智能联合清华团队在《Nature》上提出了Densing Law的概念,强调大模型的能力密度随时间指数增长,约每3.5个月翻一倍,同等性能所需参数量每3.5个月减半。

一位国产AI芯片从业者也强调模型能力好、规模小,进而能推动成本降低。“你看国内开源大模型token价格,基本都跟模型规模正相关。”

多位国产算力从业者表示,提升MFU也会带来成本压缩的空间,此外也还包括架构、显存等多方面的推理优化。

“MFU跟模型本身关系不太大,主要是算子和调度策略有关。”另一位国产存算一体芯片从业者说:“目前主流大模型的推理MFU均值在30%左右,优化后可超过50%,估计能省出50%的成本。”

也就是说,行业并没有榨干GPU的性能——花了100%的GPU钱,现在只用了不到三分之一的算力。

不过,MFU提升虽然可以带来单Token成本下降,但会不会传导到C端,取决于大模型提供方的商业考量,如果用来打价格战,这毫无疑问是一个有效的杠杆。

三、再来一次价格战

中国大模型的价格战,不是没有先例。

2024年,国内厂商就曾经爆发过一轮激烈的价格战。当时恰逢DeepSeek-V2上线,每百万Token输入1元、输出2元,彼时价格相当于GPT-4-Turbo的百分之一。

DeepSeek当时的降价关键就在于推理优化——MoE稀疏架构大幅降低了计算量,MLA多头潜在注意力把KV缓存压缩90%以上。

DeepSeek开启这轮降价之后,随即阿里、字节、等等先后下场展开价格战博弈,一度出现了“Token免费”的现象。

王小川当年在一次交流会上谈价格战,他认为与此前团购、网约车大战有本质不同,“这次价格战是直接生产力的供给,是B端市场的价格战。”

在当时,王小川也强调即使短期内亏损,(大厂)也可能在一年后实现盈利。

“在推理效率提升的情况下,通过补贴,用户有了非常明显的增长,”一位参与过上一轮价格战的大模型公司内部人士说,“大概花了几个亿吧。”

不过,这一轮Token的消耗,B端和C端需求同时爆发,反而和团购、网约车大战一样,具备改变生产关系的条件,但市场却表现出了出奇的沉默。

前述参与价格战的大模型内部人士认为,在模型的特定能力成熟,有了稳定用户来源的情况下,大家未必有动力再下场去打价格战。

“Token消耗不像2024年那种规模了,这个情况下,为了虾打价格战,存量用户的ARR收入也会被迫失血,”前述国产AI芯片从业者说,“没必要,价格战带来的增量还不确定,先把存量自砍了,这账不好算。”

Artificial Analysis跟踪的大模型API价格

根据Artificial Analysis的跟踪数据,国产模型的API单价已经足够便宜了,只是这个便宜程度对于Agent的巨量消耗来说,还远远不够。

如前面所说,受内存和存储的硬件成本冲击,国内云厂商现在面对的是涨价的难题,短期不太有降价的可能性。

“现在是前两年价格战的持续,国内厂商的价格比北美有明显的优势。只是大家清楚抢用户是个持久战,不是一两次价格战能搞定的。”前述国产存算一体芯片从业者补充道。

四、把模型“焊”在芯片上

为了解决Token疯狂消耗带来的成本问题,一部分用户开始尝试利用本地部署模型。

到目前为止,已经有不少用户基于Mac Mini为“小龙虾”配置本地模型,只不过这种解决方案,在短时间内会不断地推高Token使用成本,同时本地部署本身就存在门槛,且开源模型的能力未必能够符合用户的需求。

针对那些入门级用户,也有厂商尝试推出EdgeClaw硬件,并且在硬件生意之上,套上一层安全的故事,这其实是一个值得尝试的方向,只是在内存涨价大环境下,显得有些生不逢时。

此前,一位Mini主机创业者说,涨价对行业都有冲击。

“以前用户是觉得‘好贵’,现在直接根本不看了,他们并不在乎你的内存和硬盘有多大。”该创业者说。

与此同时,一些品牌也在电商平台推出准系统产品(无内存、存储),最低价格在2000元以内,它们虽然没有“安全故事”,却是Edgeclaw这种创业型项目第一个要逾越的难关。

对“小龙虾”端侧AI硬件来说,最大的挑战还是Mac Mini,苹果的供应链话语权和毛利率可以支撑Mac Mini超高性价比的定价,创业团队在这里很难讲故事。

还记得2025年初期,DeepSeek爆火时的“一体机”吗,你看今天行业里面还有它们的故事吗?

除了一体机这种集成硬件方案,也有创业项目尝试从更底层的芯片上去做创新。

2月份,Taalas团队推出了一款全新的芯片HC1,该芯片基于TSMC N6制程,die size 815mm²,晶体管密度仅53B,单芯片可运行Llama 3.1 8B模型,最核心的是单用户TPS(Token/s)输出16960/s,数据堪称爆表,关键就在于HC1的设计。

Taalas团队在这款芯片上,用Mask ROM将Llama 3.1 8B模型权重硬编码固化在硅片上,芯片金属层连线相当于神经元连接,相当于把模型“焊在”芯片上,同时实现计算与存储物理融合,彻底消除HBM/DRAM数据搬运,打破了内存墙限制。

虽然TPS性能突出,它的短板也同样来自于模型“焊在”芯片上这个特点,这意味着只能跑固定版本的固定模型,权重不能改、结构不能动,想换模型就要重新流片,你也可以理解为专芯专用。

五、写在最后

一切的讨论都基于Token使用成本——贵的不是单价,而是重度任务对Token使用量的倍数放大。

我曾经尝试过用小龙虾来生成指定时间戳的gif,在和一位同行交流的过程中,他说:“你这里面的gif图,我们同事做,半分钟做一张,手工。”

尽管这个案例不是很典型,但如果做几张gif就要花掉几元钱,显然不具备经济性。

接入DeepSeek API制作gif的消耗情况

要改变这一点,要么拥有更便宜的Token定价,要么Token消耗最小化,这依赖模型层面的优化,也取决于推理硬件层面的创新。

但无论如何,在Token使用的总费用打不下来,且投入的有效产出不明确的情况下,疯狂安利Token消耗,甚至强调与绩效挂钩,说是制造Token焦虑,制造AI焦虑也不为过。

再往前看,老黄还呼吁科技行业领袖审慎发声,避免引发公众对人工智能技术的非理性恐慌。这就好比跟全行业说:别打压人工智能制造恐慌了,你们都要把Token烧起来。

可问题是,谁来解决价格问题呢,会是迟迟没有到来的DeepSeek V4吗?

我记得2017年的时候,有一篇刷屏文章叫《人民想念周鸿祎》,现在人民应该很想念Token价格战,想念DeepSeek。

至少对于“虾民”来说,大概率如此。

本文来自微信公众号:腾讯科技,作者:苏扬

本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。如对本稿件有异议或投诉,请联系 tougao@huxiu.com。

End

想涨知识 关注虎嗅视频号!

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10