深夜突襲，DeepSeek-Prover-V2加冕數學王者！671B數學推理逆天狂飆

市場資訊

05-01

　　來源：新智元

　　【新智元導讀】就在剛剛，DeepSeek-Prover-V2技術報告也來了！34頁論文揭祕了模型的訓練核心——遞歸+強化學習，讓數學推理大提升。有人盛讚：DeepSeek已找到通往AGI的正確路徑！

　　就在剛剛，DeepSeek-Prover-V2正式發佈。

　　此次DeepSeek-Prover-V2提供了兩種模型尺寸：7B和671B參數。

　　DeepSeek-Prover-V2-671B：在DeepSeek-V3-Base基礎上訓練，推理性能最強。

　　DeepSeek-Prover-V2-7B：基於DeepSeek-Prover-V1.5-Base構建，上下文長度擴展至高達32Ktoken。

　　Hugging Face：https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B

　　GitHub：https://github.com/deepseek-ai/DeepSeek-Prover-V2/tree/main

　　同時，技術報告也放出了。

　　論文鏈接：https://github.com/deepseek-ai/DeepSeek-Prover-V2/blob/main/DeepSeek_Prover_V2.pdf

　　昨天，DeepSeek突然在Hugging Face上開源了671B模型，果然很快就有後續了。

　　數學證明大提升

　　此次DeepSeek-Prover-V2的訓練核心，就是靠“遞歸+強化學習”。

　　首先，DeepSeek-V3會拆解複雜定理，生成一系列子目標和推理思路。隨後，GRPO算法就會從多種候選方案中自動學習如何選出最優解。

　　對於這次放出的技術，網友盛讚說，這將導致超越人類的數字AI，極大地推動AI研究。

　　方法可以總結如下：

　　· 優化算法，以實現更快、更智能的模型

　　· 揭示AI“黑盒”行爲的洞見

　　· 設計更好的架構，無需無盡的試錯

　　· 加速數據分析，以實現更快的突破

　　因此，這就導致我們通向AGI，產生超級智能。幾年內，AI就將產生人類無法理解的高級數學。

　　具體來說，DeepSeek-Prover-V2專門用於Lean 4中的形式化定理證明。

　　其中，初始化數據是通過DeepSeek-V3驅動的遞歸定理證明流程來收集的。

　　冷啓動訓練過程中，會首先提示DeepSeek-V3將複雜問題分解爲一系列子目標，然後將已解決子目標的證明合成爲思維鏈過程，並結合DeepSeek-V3的逐步推理，爲強化學習提供了一個初始冷啓動。

　　通過這個過程，非正式和正式的數學推理就能集成到一個統一的模型中。

　　總結來說，亮點如下。

　　· 生成冷啓動推理數據：遞歸證明搜索方法

　　爲構建冷啓動數據集，團隊開發了一個簡單而有效的遞歸定理證明流程，利用 DeepSeek-V3作爲統一工具，進行子目標分解和形式化。

　　DeepSeek-V3會被提示，將定理分解爲高層次的證明草圖。同時，在Lean 4中形式化這些證明步驟，從而產生一系列子目標。

　　首先使用一個較小的 7B 模型來處理每個子目標的證明搜索，以此降低計算負擔。

　　一旦具有挑戰性的問題的分解步驟得到解決，就將完整的逐步形式化證明與DeepSeek-V3產生的相應思維鏈過程相結合，從而生成冷啓動推理數據。

　　· 基於合成冷啓動數據的強化學習

　　團隊精心挑選了一個具有挑戰性的問題子集——它們無法通過7B prover以端到端的方式解決，但分解後的所有子目標都已成功解決。

　　通過整合所有子目標的證明，團隊爲原始問題構建了一個完整的形式化證明。

　　然後，將此證明附加到DeepSeek-V3的思維鏈中，該思維鏈概述了相應的引理分解，從而將非正式推理與後續形式化過程有機結合。

　　在合成冷啓動數據上微調prover模型後，團隊執行了強化學習階段，以進一步增強其連接非正式推理與形式化證明構建的能力。

　　根據推理模型的標準訓練目標，採用二元正確/不正確反饋作爲主要的獎勵監督形式。

　　最終，模型DeepSeek-Prover-V2-671B在神經定理證明方面實現了當前最優的性能，在MiniF2F-test上達到了88.9%的通過率，並解決了PutnamBench中658個問題中的49個。

　　DeepSeek-Prover-V2爲miniF2F數據集生成的證明：https://github.com/deepseek-ai/DeepSeek-Prover-V2/blob/main/minif2f-solutions.zip

　　· 針對AIME與教科書題目的形式化數據集ProverBench

　　ProverBench是一個包含325道題目的基準數據集。

　　其中，15道題目源自最近AIME競賽（AIME 24&25）中的數論和代數題目，提供了極具挑戰性的高中競賽級別題目。

　　剩餘的310道題目則來自精選的教科書例題和教學教程，構建了一個多樣化的、具有教學意義的形式化數學題目集合。

　　因此，這項基準更全面地評估高中競賽和本科階段的數學水平。

　　DeepSeek-Prover-V2

　　在論文中，團隊構建了用於子目標分解的推理模型，利用合成的冷啓動數據和大規模強化學習技術來提升其性能。

　　通過子目標分解實現遞歸式證明搜索

　　將複雜定理的證明過程拆解爲一系列較小的引理，作爲中間步驟，是人類數學家普遍採用的一種高效策略。

　　近年來，分層式方法在神經定理證明領域得到了廣泛應用。它的核心思路是藉助現代大型語言模型（LLM）擅長的非形式化推理能力，來提升定理證明搜索的效率。

　　這部分包括3階段：從自然語言推理到形式化證明草圖、子目標的遞歸求解、基於子目標的定理證明中的課程學習。

　　首先提示DeepSeek-V3，同時生成自然語言形式的證明草圖，並將其形式化爲Lean語言中的定理陳述，其中對於尚未證明的部分使用sorry佔位。

　　接着，7B證明模型用於遞歸地求解被分解出的各個子目標。通過組合這些子目標的證明內容，團隊可以構建出原始複雜問題的完整形式化證明。

　　冷啓動數據收集流程概覽

　　DeepSeek利用子目標來擴展可用於模型訓練的形式化定理範圍。

　　他們生成了兩種類型的子目標定理：一種包含前序子目標作爲前提條件（對應圖 3(b)），另一種則不包含前提條件（對應圖 3(a)）。

　　這兩種類型的子目標都被納入到專家迭代階段，形成一個漸進式的課程體系，引導證明模型逐步掌握解決精選難題的方法。

　　這一流程的核心思想與AlphaProof 在測試階段採用的強化學習策略類似：生成目標問題的多種變體，提升模型解決高難度的IMO級別問題的能力。

　　將分解後的子目標轉化爲一系列引理（lemma）陳述

　　首先執行步驟 (a)：將原始目標狀態替換爲當前子目標。

　　接着進行步驟 (b)：將之前的子目標作爲前提條件納入當前引理中。

　　類型 (b) 的陳述用於遞歸求解複雜問題，而類型 (a) 和 (b) 的陳述都被納入課程學習流程中，用於訓練模型逐步掌握推理能力。

　　最後，將這個組合後的正式證明附加到 DeepSeek-V3最初生成的“思維鏈”之上，形成高質量的冷啓動訓練數據，用於支持形式化數學推理的學習。

　　統一非形式化推理與形式化證明

　　算法框架包括兩個階段，分別依賴兩個互補模型：用於引理分解的 DeepSeek-V3，以及用於補全具體形式化證明細節的7B證明模型。

　　這種方法巧妙地融合了高層次的自然語言推理和低層次的精確證明過程，爲構建可用於訓練的形式化推理數據提供了重要基礎。

　　· 用合成數據實現冷啓動

　　在研究過程中，DeepSeek挑選出一些特別難解決的問題。

　　這些問題很棘手，即便用7B證明模型，也沒辦法從頭到尾直接解決。

　　不過有意思的是，把這些問題拆解成一個個小目標後，每個小目標都能被成功證明。就像拼拼圖一樣，把這些小目標的證明過程按順序組合起來，就能得到原始難題的完整證明，而且這個證明是非常嚴謹、規範的形式化證明。

　　接着，DeepSeek把這個完整的證明，添加到 DeepSeek-V3 生成的 “思維鏈” 裏。

　　這裏的 “思維鏈” 就像是解題的思路草稿，詳細記錄了把難題分解成小目標的過程。

　　這樣一來，DeepSeek就得到了一份特殊的證明樣本，它既有像日常思考那樣的非形式化推理過程，又有嚴謹的形式化證明步驟，兩者完美結合。

　　通過這種方式，團隊成功收集到了幾百條高質量的數據。

　　它們非常重要，是訓練 DeepSeek-Prover-V2模型的基礎。

　　這裏方法的核心是把日常語言描述的證明過程，直接轉化成有邏輯結構的形式化框架。

　　· 用強化學習提升推理能力

　　用冷啓動合成數據對證明模型進行初步優化後，就進入了強化學習階段。

　　強化學習階段目的是讓模型更好地把日常語言的推理過程，轉化成嚴謹的形式化證明。

　　在這個過程中，按照標準的推理模型訓練要求，用 “正確” 或 “錯誤” 這兩種簡單的反饋，作爲主要的獎勵監督信號。也就是說，如果模型給出的證明是對的，就獎勵它；如果錯了，就不給獎勵。

　　但訓練有個問題：模型生成的證明結構，經常和 “思維鏈” 裏分解問題的思路對不上。

　　爲了解決這個問題，在訓練剛開始的時候，團隊就加入了一種新的獎勵機制，專門用來懲罰那些和分解結構不一致的輸出結果。

　　在實際訓練中，這個保證結構一致的方法效果非常好，大大提高了證明的準確率。尤其是在證明那些需要很多步驟、特別複雜的定理時，優勢更加明顯。

　　訓練細節

　　DeepSeek-Prover-V2的訓練採用了兩階段策略，建立了兩種互補的證明生成模式：

　　這兩個生成模式的設計延續了DeepSeek-Prover-V1.5的思路，區別在於不同的提示模板。

　　在第一階段中，團隊結合課程學習框架和專家迭代機制，訓練non-CoT證明模型，並通過子目標分解遞歸地合成複雜問題的證明。

　　由於non-CoT模式推理速度快、驗證成本低，因此非常適合快速迭代與數據採集。

　　在此基礎上，第二階段引入了冷啓動的思維鏈數據，這些數據整合了DeepSeek-V3的高級數學推理能力與合成的形式化證明。

　　CoT模式隨後進入強化學習階段，以進一步提升模型在推理和形式化構造之間的銜接能力。

　　專家迭代（Expert Iteration）

　　DeepSeek-Prover-V2的non-CoT模型訓練採用了“專家迭代”方法，這是目前形式化定理證明系統中廣泛使用的訓練範式。

　　論文鏈接：https://arxiv.org/abs/2009.03393

　　每輪訓練中，當前性能最好的模型會嘗試解決前幾輪未成功證明的難題。

　　成功的證明結果經Lean系統驗證後被加入監督微調（SFT）數據集中，用於訓練下一代更強的模型。

　　這個過程不僅讓模型持續從初始演示數據中學習，還能提煉自身的成功推理路徑，不斷優化解決難題的能力。

　　DeepSeek-Prover-V2整體訓練流程與V1和V1.5保持一致，只在訓練問題的分佈上做了兩處改進：

　　監督微調（Supervised Fine-tuning）

　　團隊在DeepSeek-V3-Base-671B的基礎上進行微調，學習率設置爲常數5e-6，最大上下文長度爲16,384 token。

　　訓練數據來自兩個來源：

　　non-CoT數據強化模型在Lean生態中的形式驗證能力，而CoT數據則更強調將數學直覺轉化爲結構化形式證明的過程。

　　強化學習（Reinforcement Learning）

　　DeepSeek採用了Group Relative Policy Optimization（GRPO）作爲強化學習算法。

　　GRPO不需要單獨的價值評估模型，而是通過對每道題採樣多個候選證明，並基於相對獎勵進行策略優化。

　　訓練時，我們使用二元獎勵機制Lean驗證成功則得分1，失敗則爲0。

　　爲了確保訓練有效性，團隊精心挑選了具有挑戰性但又可解的題目作爲訓練提示。

　　在每輪訓練中，隨機選取256道不同題目，每道題生成32個候選證明，最大序列長度爲32,768 token。

　　蒸餾與小模型訓練（Distillation）

　　團隊將DeepSeek-Prover-V1.5-Base-7B的最大上下文長度從4,096擴展到32,768 token，並利用在671B模型強化學習階段採集的rollout數據對模型進行微調。

　　在CoT模式之外，團隊還加入了專家迭代期間採集的non-CoT數據，旨在讓小模型具備成本更低的證明能力，能夠快速輸出精煉的形式化結果。

　　此外，團隊也在7B小模型上執行與671B模型相同的強化學習流程。

　　實驗結果

　　MiniF2F基準測試結果

　　MiniF2F包含488個形式化的題目，來源包括AIME、AMC和IMO等競賽，以及MATH數據集，涵蓋了初等數學的核心領域，如代數、數論和歸納法。

　　這些題目被分爲兩個大小相等的子集，即miniF2F-valid和miniF2F-test，每個子集包含244道題目，並且在各個學科領域具有相同的分佈。

　　如表1所示，實驗結果表明，DeepSeek-Prover-V2-671B在miniF2F-test基準上取得了SOTA性能，當採用CoT生成策略時，僅用32個樣本便達到了前所未有的82.4%的準確率。

　　值得注意的是，參數效率更高的DeepSeek-Prover-V2-7B也展現出了很強的競爭力，超越了現有文獻中的所有開源定理證明器。

　　他們還發現了一個明顯的規律：隨着樣本預算從1增加到8192，7B和671B模型之間的性能差距顯著擴大，更大規模的模型展現出更高的樣本效率和更快的性能提升。

　　· 子目標引導的課程學習在難題證明中的應用

　　表2詳細展示了DeepSeek-Prover-V2在miniF2F基準測試中的解題情況，其在驗證集和測試集上分別取得了91.0%和88.9%的高通過率。

　　值得注意的是，團隊提出了子目標引導的課程學習框架，將通用模型DeepSeek-V3與輕量級專用7B prover相結合，在miniF2F-valid上實現了90.2%的成功率，與DeepSeekProver-V2-671B的性能幾乎持平。

　　這些發現表明，SOTA的通用LLM不僅能進行自然語言理解，還能有效支持複雜的形式推理任務。

　　通過巧妙的子目標分解，模型便可將難題分解爲一系列可處理的步驟，從而有效連接非正式推理與形式化證明構建。

　　· CoT vs. non-CoT

　　表1的實驗結果表明，在形式化數學推理中，CoT推理模式相比non-CoT模式具有顯著的性能優勢。

　　這進一步驗證了CoT提示的有效性，它鼓勵將複雜問題分解爲中間步驟，並證實了推理時擴展在形式化定理證明領域依然適用。

　　作爲補充，表3提供了DeepSeek-Prover-V2在不同推理模式下生成的token數量的統計信息。

　　正如預期的那樣，CoT模式會生成明顯更長的輸出，反映了其複雜的推理過程。

　　有趣的是，在non-CoT設置下，671B模型生成的平均輸出長度比7B模型更長。

　　更仔細的分析表明，儘管non-CoT模式下沒有顯式推理提示，但較大規模的模型通常會在證明代碼中插入簡短的自然語言註釋，這些註釋類似於隱式推理步驟。

　　這表明，即使沒有顯式的CoT提示，高容量模型也可能在內部和外部隱式地執行中間推理。

　　本科水平基準測試結果

　　· ProofNet

　　ProofNet包含371道使用Lean 3編寫的題目，這些題目選自一系列流行的本科純數學教材，涵蓋了實分析、複分析、線性代數、抽象代數和拓撲等主題。

　　表4的結果顯示，相比於non-CoT設置，採用CoT推理時DeepSeek-Prover-V2的通過率得到了顯著提升。

　　儘管訓練數據主要源自高中數學，但該模型在更高級的大學數學問題上展現出了強大的泛化能力，代表着強大的形式推理能力。

　　· PutnamBench

　　PutnamBench基準測試集包含了1962年至2023年普特南數學競賽中的數學題。

　　它是美國和加拿大極負盛名的年度本科生數學競賽，涵蓋分析、線性代數、抽象代數、組合數學、概率論和集合論等多個大學領域的知識。

　　如表4所示，DeepSeek-Prover-V2-671B在PutnamBench中展現了增強的推理能力，解決了49道題目，並顯著優於其non-CoT版本。

　　這說明，CoT推理方法已經可以有效處理極有挑戰性的大學數學問題。

　　·RL實現的技能發現：7B勝過671B！

　　此外，團隊意外地發現：DeepSeek-Prover-V2-7B在PutnamBench數據集上採用non-CoT生成模式時，也表現出了卓越的性能。

　　更令人稱奇的是，這個較小的7B模型成功解決了DeepSeek-Prover-V2-671B仍未能解決的13道題！

　　這是爲什麼？

　　仔細分析模型的輸出後，團隊從中發現了一種獨特的推理模式——

　　7B模型經常使用Cardinal.toNat和Cardinal.natCast_inj來處理涉及有限基數的問題，而671B模型生成的輸出中明顯缺少這種處理方式。

　　似乎就是這種技術，讓7B能有效解決需要精細操作基數值的問題。

　　組合問題測試結果

　　CombiBench是一個綜合性的基準測試集，其中包含了100道用Lean 4形式化表示的組合競賽題，配有自然語言描述。

　　團隊採用with-solution設置，此時正確的答案已嵌入在Lean代碼中，因此評估可以完全集中在證明過程的生成上。

　　對其中77道題進行評估後，模型成功解決了12道。

　　結果表明，儘管該Prover模型主要在數論和代數領域進行訓練，但在組合問題上也展現出了良好的泛化潛力，即使這些問題相當難。

　　ProverBench數據集

　　爲了增強現有基準，團隊構建了一個包含325道題目的基準數據集。

　　其中，15道題目來自AIME 24和25中的數論和代數題目，屬於極難的高中競賽級別題目。剩餘的310道題目則來自精選的教科書例題和教學教程。

　　這就能更全面評估高中競賽和本科階段的數學水平。

　　· AIME題目形式化

　　美國數學邀請賽AIME 24&25中的題目，已成爲評估LLM推理能力的常用基準。

　　爲了彌合模型在形式化和非形式化數學推理能力評估上的差異，我們整理並形式化了AIME 24&25中的部分題目，並排除了幾何、組合和計數問題，因爲它們在Lean中的表示較複雜。

　　最終，團隊選擇了15道題目，涵蓋了初等數論和代數中競賽級別的知識點。

　　結果顯示，DeepSeek-V3-0324成功解決了15道題中的8道題。

　　而DeepSeek-Prover-V2-671B在已知正確答案的前提下，能夠爲15道題目中的6道構建出有效的形式化證明。

　　這種表明，非形式化數學推理與形式化定理證明的性能差距正在顯著縮小，高級語言模型在語言理解和形式邏輯的嚴謹性上正日益接近。

　　· 教科書題目形式化

　　除了AIME 24&25之外，團隊還從高中競賽和本科課程教材中挑出題目來擴充基準測試集。

　　最終，他們形式化了310道題，難度範圍很廣，覆蓋了競賽級別的初等數學到本科常見的高級主題。

　　如表6所示，結果表明，採用CoT推理的DeepSeek-Prover-V2-671B始終優於所有基線模型，與在其他基準測試中的表現一致。

　　在論文最後，團隊表示，未來的工作將着重於將範例擴展到類似AlphaProof的系統。

　　最終目標，就是解決代表自動定理證明領域前沿的IMO級數學難題！

　　快速開始

　　我們可以直接使用Hugging Face的Transformers庫進行模型推理。

　　以下是如何生成miniF2F數據集中問題證明的一個簡單示例：

　　參考資料：

　　https://github.com/deepseek-ai/DeepSeek-Prover-V2/tree/main

海量資訊、精準解讀，盡在新浪財經APP

責任編輯：韋子蓉

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

深夜突襲，DeepSeek-Prover-V2加冕數學王者！671B數學推理逆天狂飆

熱議股票