百萬上下文之後，拼什麼？

文｜科技不許冷

過去幾天，科技圈的視線全被DeepSeek吸走了。

滿屏都是傳聞中的估值溢價，或者是跟各類國產算力芯片的適配通稿。市場的狂熱情緒，很容易讓人迷失在龐大的數字迷宮裏。大衆的關注點，要麼是「百萬上下文"這個聽起來很唬人的標籤，要麼是跑分排行榜上「誰又贏了誰零點幾分」的算術題。

DeepSeek V4-Pro的分數確實好看。從其技術報告披露的底牌來看，在SimpleQA-Verified測試中，它以20個絕對百分點的優勢甩開了所有開源對手；在Codeforces代碼競賽裏，預期評分直接追平了GPT-5.4。當然，在世界知識的廣度上，它依然略遜於Gemini-3.1-Pro；遇到極高難度的複雜任務，跟Claude Opus 4.6也還有微小的身位差。

但這都不重要。

如果你只盯着排行榜排名，就完全看漏了這家機構真正的野心。

DeepSeek根本不是在發布一個用來刷榜的模型參數包。它實際上是在一點點拆開「百萬上下文」這件事的底座。

大模型的戰爭，已經從模型層退場，全面接管系統層。

過去幾年，行業都在拼腦容量。比誰的參數多，比誰跑分高。但這套玩法到頭了。V4的出現，是在定義一套新規矩：模型本身，只是高效工程系統自然結出的一個副產品。

當1M上下文變成所有官方服務的出廠默認值時，從其開源實現中可以清晰地看到一個事實：這絕對不是靠算力硬堆出來的。長文本時代的下半場，拼的從來不是智商。

而是機房調度能力。

13B激活參數，把37B按在地上

調度能力從哪看出來？先看V4最反直覺的一個設計：Pro和Flash的共生關係。

行業裏一看到「Pro」和「Flash」，第一反應就是精準刀法：Pro用來打標杆，Flash用來做下沉市場，收割中小企業。

這種典型的商業包裝邏輯，放在V4身上，看偏了。這兩者根本不是算力降級關係，而是驗證同一套底層邏輯的對照組。

大模型過去的長文本能力，本質上是用顯存硬堆出來的僞能力。只要給的GPU夠多，顯存夠大，不管多長的文本都能硬吞下去。但代價是，成本高到根本沒法在真實的商業環境裏鋪開。

V4-Pro以1.6T的總參數和49B的激活參數把容量拉到了頂。但真正的大招，是那個只有284B總參數、13B激活參數的V4-Flash。

文檔裏的一個數據直接戳破了行業的窗戶紙：在大量極具挑戰性的測試中，只有13B激活參數的Flash-Base，直接超越了上一代37B激活參數的V3.2-Base。

13B的極小激活代價，絕不是能力縮水，而是一次底層的效率重構。Flash的意義，不是為了證明它能有多省錢，而是為了證明「算力霸權是可以被架構重構打破的」。

參數規模，已經徹底失去決定性意義。

調度能力，正在取代參數，成為新的主戰場。這讓百萬上下文不再是高階英偉達集群的專屬玩具，國產芯片也能順暢地接管戰局。未來開源模型的分水嶺，不再是看誰的底座大，而是看誰能用十分之一的力氣幹同樣的活。

專家和稀泥，不如各管一段

硬件效率是一面，另一面是軟件效率。V4在'後訓練'階段也換了一條路。

大模型的「後訓練」階段，過去一直走在一條死衚衕裏。

行業慣用的混合強化學習（Mixed RL），說的直白點，就是和稀泥。如果你想讓模型既懂微積分，又會寫C++，還能做日常規劃時，傳統的做法是把所有的參數強行往中間捏。結果就是「向均值迴歸」。

強行捏在一起，特化能力全磨平了，最終只會均值化成平庸的通才。

V4換了一條路。不是改良，是徹底換道。技術報告裏交代了新解法：先獨立培養專家。數學專家就只管算數，代碼專家就只管編程。把單一維度的能力拉到滿。

關鍵在於最後怎麼合併。V4不用業內氾濫的參數平均法，而是用了同策略蒸餾（OPD）。

傳統的權重合併是一種靜態妥協，而OPD是一場動態接管。

統一模型在自己生成軌跡時，遇到數學題，系統就精準引入數學專家的梯度來指路；遇到寫代碼，就無縫切給代碼專家。大家各司其職，不在參數層面打架。

順着這條線往下看，V4應用端那個很火的「三種推理模式」（無思考、高強度思考、極限思考），根本不是加了個UI按鈕那麼簡單。它是OPD機制在產品端的直接變現。

在極限思考模式下，底層提示詞會強制模型去分解問題、窮盡邊緣情況。這種極其固執的死磕行為，恰恰是在OPD階段，在「數學專家」和「編程專家」的高強度捶打下固化下來的本能。

OPD不搞平均。遇到數學題，接數學專家；遇到代碼，接代碼專家。各管一段，不在參數層面打架。

Agent跑了三小時，不能失憶

換完訓練方法，換應用場景，長上下文到底能幹嘛？

如果只是為了在十萬字的研報裏找一句話，那不叫長上下文，那叫高級檢索。真實的商業場景裏，Agent要替你重構代碼、跨系統驗證數據、甚至跑一整晚的流程。

在這個過程裏，最致命的問題是「失憶」。

V3.2有個讓工程師極其頭疼的痛點：新消息一進來，模型之前的思考痕跡直接清空。普通聊天這麼幹沒問題，省資源。但如果是跑了三個小時的Agent任務，半路插進去一句話，模型腦子一白，整個狀態全部丟失，得從頭算。

這種鏈條斷裂，在實際業務中直接接不住。

V4給出的方案是「交織思考」。邏輯很冷酷，分場景算賬。

只要是帶工具調用的長程場景，跨越消息邊界，推理鏈條完整保留。如果是閒聊，繼續清空，絕不多浪費一丁點算力。模型開始真正懂得「在什麼場合，該記住什麼」。

更絕的是它的快速指令（Quick Instruction）。

以前行業裏做意圖識別，都習慣在外面掛個小模型。這意味着每次有新請求進來，不管長短，系統都得把用戶的提示詞重新嚼一遍。這本質上是在白白浪費預填充計算。

V4沒這麼幹。從其開源代碼中可見：直接在輸入序列末尾插幾個隱式指令。主模型之前算好的海量特徵（KV Cache），直接複用。

長上下文的核心問題，從來不是「記得多」，而是「算得起」。

這其實就是粗暴地砍掉了一次冗餘的預填充計算。行業默認一個功能配一個小模型，V4用行動證明：不用。KV Cache複用喫透了，長程Agent才能跑起來。

完全緩存、定期存、不存，都疼

能跑不代表能賣。

第17頁有個細節，自動生成的kernel，跟手寫CUDA逐位比對。不是差不多，是每一位都一樣。這種工程潔癖，業務裏少見。有這底線，纔敢算部署賬。

高併發的百萬上下文，拼的根本不是大模型懂不懂人類，拼的是你懂不懂硬件的物理極限在哪。

文檔裏三種調度策略都列出來了，沒有藏着掖着，全是取捨。

想追求計算零冗餘？上「完全緩存」。但代價是，固態硬盤的I/O通道可能在幾秒鐘內被高頻寫入直接擠爆。

想保護硬盤？上「定期檢查點」。隔一段距離存一次。硬盤保住了，但GPU得時不時騰出算力來給丟失的尾部數據擦屁股。

要是乾脆不上物理硬盤緩存呢？那就選「零緩存」。省下全部存儲帶寬，全靠長程特徵做錨點，碰到問題GPU現場硬算。

這三條路，哪條都不是完美的。這本質上就是一場關於硬件壽命、併發峯值和用戶延遲容忍度之間的極限算賬。它把冷冰冰的現實擺在所有人面前：AI早已不是單純的算力密集型產業，它正在加速變成調度密集型產業。

寫在最後

看DeepSeek V4，如果還停留在跑分榜上，那就連門檻都沒摸到。

OPD的能力動態接管，交織思考的記憶保留，砍掉預填充的快速指令，還有那些把硬盤和顯存算計到骨頭裏的落盤策略。

這些枯燥的細節，其實是一根線上的螞蚱。

大模型在變。

不再是陪聊的玩具。

而是開始接管真實世界的業務鏈條。

DeepSeek不是在賭未來，它是在建機房。外界還在聊分數，分數只是機房運轉時的副產品。

當對手還在為跑分榜上的零點幾分沾沾自喜、向市場炫耀那幾百億參數時，DeepSeek已經在算每百萬Token的電費。

戰局已經很清晰了：

下一場長文本戰爭，決勝點不是智商，是機房成本。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

百萬上下文之後，拼什麼？

熱議股票