Token通常解釋為「詞元」,是AI大模型的基礎計量單位。
隨着OpenClaw的爆火,Token消耗量呈指數級增長,這一技術術語迅速破圈成為行業熱詞。3月16日,阿里巴巴宣佈成立Alibaba Token Hub事業群,並以「創造Token、輸送Token、應用Token」為核心目標。
一個計量單位,何以「冠名」科技大廠的戰略部門?
從「代幣」到「詞元」
Token是一個計算機領域的多義詞,最初以虛擬貨幣中「代幣」的含義進入大衆視野,比如比特幣、以太坊等都屬於Token。
隨着人工智能時代的到來,Token不再是虛擬貨幣,而是詞元,相當於大語言模型處理、理解和生成文本的最小基本計算單位。以人類自然語言為例,我們的語言最小單位通常是「字」,而在計算機語言中,Token就相當於「字」,但並非是一個字等於一個Token,而是介於「字」和「詞語」之間的計算單元。
一個Token可以拆分成幾個字,主要由大模型配套的分詞器(Tokenizer)決定,不同語言、不同模型的拆分結果有明顯差異。比如,「人工智能」有四個字,但有些大模型拆分成「人工」和「智能」兩個Token,有些把「人工智能」視為一個Token。
「單個漢字、高頻常用詞組、標點符號、數字等,通常會合併成一個Token,但生僻詞組往往會每個字算一個Token。」上海某大模型公司技術工程師告訴記者,英文語句也比較複雜,單詞會根據語態、詞根、詞綴等不同算作是不同的Token。
即便是同一段文字,不同大模型採用不同的分詞器規則,Token數量可能天差地別,OpenAI、Meta、阿里巴巴、字節跳動等都有專門的分詞器規則,國產大模型對中文的Token分詞更加科學和高效。
據了解,隨着多模態大模型發展,圖像、音頻、視頻等非文本內容,也會被模型拆分為對應的視覺Token、音頻Token進行處理,但與大語言模型的分詞邏輯基本一致,都是將非結構化的數據,拆分成可計算的最小單元。
模型能力核心指標
Token不僅是大模型的最小計算單元,也是大模型能力的核心指標之一。
以上海階躍星辰最新大模型Step3.5 Flash為例,官方文檔表示最新模型「能夠高效處理高達256K的上下文」,其中「256K上下文」意味着這款模型能處理「25.6萬個Token」的總文本長度。
通常來說,大模型在單次對話中能夠處理的Token數量越高,大模型能力也越強。
記者了解到,大模型生成本文的實質,是基於上文內容,逐個預測下一個概率最高的Token,再把預測出的Token序列解碼成人類可讀的自然語言。因此,模型的每一步生成、推理計算,都是建立在Token處理的基礎上。
因此,全球絕大多數大模型服務,按照「輸入Token數量」加上「輸出Token數量」進行計費,Token的消耗直接對應大模型的使用成本。
由於OpenClaw的每一項任務,都會分解成不同的指令,指令並行時會消耗大量的Token,因此有些高頻「養蝦」的開發者每月賬單可達上萬元。
目前,大模型正從「聊天AI」向自主執行復雜任務的AI智能體轉變,Token消耗呈現出明顯的指數級增長趨勢。第三方調研數據顯示,2024年,中國整體日均Token消耗約1000億,今年2月,這一數據已飆升至180萬億。
因此,不少行業人士認為,全球大模型行業正在邁向「Token經濟」,即大模型的價值不再只以前沿推理能力作為單一指標,而是加入「以Token計價」的商業經濟指標。
AI時代新「貨幣」
在互聯網時代,流量是大廠必爭之地,在AI時代,Token替代了流量,成了新的「貨幣」。
3月16日晚間,阿里巴巴集團CEO吳泳銘在內部信中宣佈,成立Alibaba Token Hub(ATH)事業群,涵蓋通義實驗室、MaaS業務線、千問事業部、悟空事業部及AI創新事業部,建立以「創造Token、輸送Token、應用Token」為核心目標的新組織。
依據最新分工,通義實驗室負責不斷追求基礎模型能力上限,提供最領先模型;MaaS業務線構建高效開放的模型服務平台和技術體系;千問事業部負責打造個人AI助手,比如千問App等C端應用;悟空事業部將模型能力融入企業工作流,打造B端AI原生工作平台,主要由釘釘負責;AI創新事業部則是探索各類AI創新應用,快速驗證新模式、新市場。
該部門涵蓋了從基礎模型研發,到模型服務平台,再到模型應用全產業鏈,與Token直接相關。這一全新的部門,由吳泳銘直接負責。
記者了解到,阿里巴巴高層已達成共識,未來的雲服務將高度依賴AI智能體,類似於OpenClaw的AI智能體將帶動Token消耗量的飛速增長,「Token經濟」將迎來大爆發。

Coding Plan每月價格從幾十元到幾百元不等
這一判斷並非阿里巴巴獨有,事實上,各大AI廠商正在抓緊推出Coding Plan(編程套餐),通過編程這一剛需的Token消耗場景,增加開發者和AI從業者的使用黏性。
目前,無論是阿里巴巴、字節跳動、百度、騰訊等科技巨頭,還是MiniMax、智譜等AI原生企業都推出了自有的Coding Plan,並接入了多款國產開源大模型,幫助開發者實現「模型自由+工具自由+Token自由」。
(文章來源:上觀新聞)