DeepSeek V4衝擊波：百萬上下文成標配，Agent底座之爭打響在即

作者 | 林克

4月24日，備受關注的DeepSeek的V4模型預覽版終於發布並同步開源了權重。

這次發布的兩個版本，一個是總參數1.6萬億，激活49B的旗艦版V4 PRO，一個是經濟型V4-Flash，總參數284B，激活13B，均支持100萬token上下文，MIT協議完全開源。

就在前一天，OpenAI啱啱上線GPT-5.5，每百萬輸出token定價30美元。今天DeepSeek V4-Flash的輸出定價是2元人民幣/百萬token，摺合不到0.3美元。

前後兩天，閉源與開源的兩種定價邏輯，面對面呈現在了市場面前。

一、時點：三次跳票之後

DeepSeek這一天來得不算突然，但比所有人預期的都晚。

從去年底到今年2月、3月、4月初，DeepSeek V4的發布窗口推了三次，行業裏各大模型的頻繁更新幾乎進入了最密集的時刻。

必須承認在2026年4月末，百萬上下文已稱不上是絕對領先，Gemini、Qwen等都到了這個量級。這次DeepSeek V4落地，要回答的不是"能不能做到"，而是"做到了之後，成本撐不撐得住"。

V4給出的回答是一套全新的混合注意力架構。它在token維度引入壓縮機制，結合自研的DSA稀疏注意力，其讓模型在處理超長文本時不再對所有token做全量計算，而是區分輕重：強關聯的token精讀，弱關聯的壓縮或跳過。

這套機制從預訓練階段就改變了模型處理長序列的方式。根據技術報告，V4還引入了流形約束超連接（mHC），替代傳統殘差連接來增強深層網絡信號傳播的穩定性，並使用Muon優化器提升訓練收斂速度。整個模型在超過32萬億token上完成了預訓練。

實際效果用兩個數字就能概括：在百萬token上下文設定下，V4-Pro每處理一個token的算力消耗只有V3.2的27%，KV緩存佔用只有10%。

官方在公告裏說得更清楚："從現在開始，1M上下文將是DeepSeek所有官方服務的標配。"這意味着長上下文正式從"加價功能"變成了"默認配置"，這對整個行業的成本預期是一次重新校準。

二、矩陣：兩型號+三模式

在這次發布中，旗艦V4-Pro和經濟型V4-Flash都支持三種推理模式：非思考模式（快速響應）、思考模式-高（顯式推理鏈）、思考模式-極限（推到模型能力邊界）。官方建議複雜Agent場景使用極限模式。

DeepSeek對V4-Pro的定位給了一個直白的對標：內部員工已經把它當作日常Agentic Coding工具使用，體驗優於Claude Sonnet 4.5，交付質量接近Opus 4.6非思考模式，但與Opus 4.6思考模式仍有差距。

推理性能方面，在數學、STEM和競賽型代碼評測中超越當前所有已公開評測的開源模型，比肩世界頂級閉源模型；世界知識大幅領先其他開源模型，稍遜於Gemini-Pro-3.1。

V4-Flash的推理能力接近Pro版，但世界知識儲備稍遜；簡單Agent任務旗鼓相當，高難度任務有差距。

這組自評有一處值得注意，DeepSeek主動劃出了與Opus 4.6思考模式的差距，在國產大模型發布話術的傳統裏，這種剋制本身就是一種技術自信的表達。

三、扳機：Token價格差

隨着預覽版的公開，V4的API定價已隨發布同步上線。

每百萬token，V4-Flash的輸入價是1元（緩存命中0.2元），輸出價2元；V4-Pro的輸入價12元（緩存命中1元），輸出價24元。官方註明這是預覽版定價，Pro版下半年算力擴容後將大幅下調。

這組數字需要放在座標系裏看纔有意義。

Flash版每百萬token輸入1元——這個價格讓幾乎所有開發者都能無負擔地調用一個萬億參數級MoE架構的開源旗艦模型。

對比之下，GPT-5.5前一天啱啱上線的輸出定價是30美元/百萬token，摺合人民幣超過200元，與V4-Flash的2元輸出價差距超過100倍。即便拿V4-Pro的24元輸出價來比，差距仍在一個數量級以上。

Pro版當前價格較高，但官方已經給出了明確的降價預期。背後的約束並非定價策略，而是算力供給——Pro版的高性能推理對芯片資源要求更高，當前服務吞吐十分有限。這也從側面印證了V4在自主算力適配上的深度投入。

緩存命中的折扣幅度同樣值得關注。Flash的緩存命中價只有未命中價的五分之一，Pro是十二分之一。

這意味着DeepSeek在用定價槓桿鼓勵一種使用方式：把系統提示詞、工具定義、文檔模板等固定內容放在請求頭部，讓緩存機制自動生效，對於Agent類應用，這恰好是最典型的調用模式。

用Flash的白菜價鋪量，用Pro的高階能力撐住頂端場景，用緩存機制降低Agent開發者的邊際成本。每一刀都切在應用層最痛的地方。

四、方向：Agent底座

如果在V4的發布裏只提煉一個關鍵標籤，那麼Agent比百萬上下文或許更重要。

官方明確寫道：V4針對Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent產品進行了專項適配和優化，在Agentic Coding評測中達到開源模型最佳水平。這份適配名單同時包含Anthropic的產品和國產開發者工具。

這個信號很明確，DeepSeek不打算自建應用生態，而是要成為Agent時代的底座供應商。

這個選擇放在當前的行業格局裏是一個有意識的取捨。Anthropic的年化收入過去四個月從90億美元翻到300億美元，增量幾乎全部來自Claude Code；Cursor一個代碼編輯器估值已到600億美元。應用層的錢在那裏，但DeepSeek選擇不去碰。

這說明它的定位不是下一個Anthropic，更有可能是Agent時代的基礎設施。

長上下文+低價API+Agent適配的組合，本質上是把自己做成一個供電站，讓所有電器都能更便宜地跑起來。

對於那些整天跟Token消耗作鬥爭的Agent開發者來說，V4打開的是一個具體的場景：把整個代碼倉庫、完整的需求文檔、幾百輪歷史對話一次性塞進調用，不再需要切分、檢索、摘要這套工程繞路。過去做Agent最頭疼的就是上下文管理——每多一輪對話，token就指數級堆疊，成本和穩定性同時惡化。

V4如果能在真實負載下兌現承諾，這個痛點的成本結構將被改寫一次。

五、生態：模型、算力賽跑

V4延期的這段時間裏，國產開源大模型的戰場從未安靜過。

今年農曆年前後出現了一次密集爆發：阿里Qwen3.5總參數3970億、激活僅170億，百萬token的API價低至0.8元，是Gemini-3-Pro的十八分之一；智譜GLM-5的代碼生成的HumanEval96.2%打到開源最強。

4月繼續加速：Kimi K2.6在SWE-Bench Verified上拿到80.2%，幾乎追平Claude Opus 4.6；智譜GLM-5.1在SWE-Bench Pro上以58.4%超過了GPT-5.4和Claude Opus 4.6；Qwen 3.6 Plus也跨入百萬token上下文行列。

Qwen、Kimi、GLM、MiniMax、MiMo，這些國產模型在國際開發者社區的出現頻率正在肉眼可見地上升。

除了模型，算力側的匹配也在同步落地。

華為在V4發布同日確認昇騰全系列產品——A2、A3及最新的昇騰950已全面適配V4-Flash和V4-Pro。

措辭是"雙方芯模技術緊密協同"，意味着DeepSeek和昇騰的適配工作從模型研發階段就在同步推進。

華為給出了一組具體的性能數據：基於昇騰950超節點，V4-Pro在8K輸入場景下實現了約20ms的單token解碼時延，單卡吞吐4700 TPS；V4-Flash可以做到約10ms時延，單卡吞吐1600 TPS。

昇騰A3超節點上，V4-Flash在64卡大規模部署下單卡吞吐超過2000 TPS。

這些數字背後是昇騰950在底層架構上的三項代際升級：原生支持FP8/MXFP4等低精度格式（內存佔用降低50%以上，算力翻倍）、針對MoE稀疏訪存特徵的硬件級優化，以及Vector與Cube單元共享片上內存的新設計。

更值得關注的是工程生態層面的動作。

華為同步開源了PyPTO編程範式，讓V4新架構中涉及的Attention壓縮、mHC等複雜算子的開發周期從周級縮短到天級，開發者不需要手動處理硬件層面的同步和數據搬運。

寒武紀同樣在發布當天宣佈，已基於vLLM框架完成V4-Flash和V4-Pro的Day 0適配，代碼開源到GitHub。

兩家國產芯片廠商在模型發布首日就拿出了完整的推理部署方案，這個響應速度本身就說明，適配工作不是臨時趕出來的，而是跟模型研發深度咬合了很長時間。

DeepSeek為這次底層算力遷移付出的工程代價不小。據此前報道，團隊重寫了大量核心代碼，完成了從CUDA生態到昇騰CANN框架的整套技術棧遷移，這也是V4反覆跳票的原因之一。

但當一個萬億參數級的開源旗艦模型，在發布首日就能跑在國產算力的全系列產品上，適配代碼直接開源，推理性能給出了具體的吞吐和時延數據而不是"即將支持"——這件事的意義，已超出了任何單一模型的評測範疇。

無論模型還是算力，他們之間存在競爭關係，但從更大的維度看，它們都在證明了同一件事：

中國AI研發的系統性能力不是一兩個特例，而是可以不斷連續性創新的生態。

2025年1月，DeepSeek R1發布，引發美股單日市值蒸發超1萬億美元，被業界稱為人工智能領域的「斯普特尼克時刻」。

今天V4的發布沒有那種戲劇性的震撼，但中國AI研發已經從「偶爾令人震撼」進入了「持續在場」階段。

DeepSeek在公告末尾引了《荀子》中的一句話：

不誘於譽，不恐於誹，率道而行，端然正己。

放在一家三次跳票、核心人才流失、剛傳出孖展的公司身上，這句話讀起來有幾分倔強。

但在整個國產開源模型群體站出來的2026年，這句話不只屬於DeepSeek，更屬於中國所有AI創新堅定前行的腳步。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券