獨家｜螞蟻百靈&浙大僅用8張英偉達H200 GPU卡，AI框架InftyThink+的DeepSeek-R1蒸餾版準確率提升21%

這次，螞蟻百靈團隊開始測試英偉達H200 AI計算卡能力了。

2月9日消息，浙江大學、螞蟻集團的百靈AI團隊、北京大學研究團隊，近期聯合研發了一種基於強化學習的端到端框架InftyThink+，旨在解決大模型推理中的上下文長度限制、計算複雜度和中間信息丟失問題。

研究團隊利用8張英偉達H200 AI計算卡，基於InftyThink+的訓練方式，在DeepSeek-R1-Distill-Qwen-1.5B模型上實現AIME24準確率提升21%，推理延遲降低32.8%，並在效率獎勵下進一步減少60%-70%延遲。

據悉，本論文作者當中，包括螞蟻百靈的負責人周俊，以及Shuaicheng Li（李帥成，音譯）,Zujie Wen（溫祖傑，音譯），Zhiqiang Zhang（張志強，音譯）。

項目：https://zju-real.github.io/InftyThink-Plus

代碼: https://github.com/ZJU-REAL/InftyThink-Plus

論文：https://arxiv.org/abs/2602.06960

「我們提出了InftyThink+，這是一種端到端的強化學習框架，可在軌跡級別優化迭代推理。通過將格式學習與策略優化分離，InftyThink+使模型能夠學習何時壓縮、如何壓縮以及如何有效延續。實驗表明，與基於SFT的迭代推理和標準長上下文強化學習相比，InftyThink+在準確率上始終有所提升，同時顯著降低了推理延遲。這些改進源於所學習的自適應行為，而非啓發式方法，這凸顯了軌跡級別優化的重要性。我們在附錄 A.中進一步討論了InftyThink+的侷限性及其未來發展方向。」論文作者表示。

具體來看，傳統長鏈推理存在三大瓶頸：自注意力機制導致的二次複雜度、上下文窗口硬限制以及"中間信息丟失"現象。現有迭代推理方法依賴監督學習或固定啓發式策略，無法動態優化何時壓縮、如何壓縮及如何繼續推理。

2025年，浙江大學團隊，聯合美團等研究團隊，開發了一種將長文本推理數據集重構為迭代格式的方法InftyThink，將OpenR1-Math轉化為33.3萬條訓練實例，在降低計算成本的同時提高性能，Qwen2.5-Math-7B在MATH500、AIME24和GPQA_diamond基準測試中顯示出3-13%的性能提升。

論文題目：INFTYTHINK: Breaking the Length Limits of Long-Context Reasoning in Large Language Models

論文地址：https://arxiv.org/pdf/2503.06692

如今，11個月後的今天，浙江大學研究團隊聯合螞蟻百靈團隊再度出手，研發出全新的InftyThink+端到端深度學習框架，通過兩階段訓練方案突破這些限制：首先通過監督微調建立迭代推理格式，再通過軌跡級強化學習優化策略。

InftyThink+核心創新在於將格式學習與策略優化分離，通過軌跡級優勢估計和效率獎勵函數，使模型自主學習動態壓縮時機和摘要生成策略，同時保持推理深度與效率的平衡。

從模型訓練層面，該方法使用DeepSeek-R1蒸餾而來的DeepSeek-R1-Distill-Qwen-1.5B，以及未經後訓練的預訓練模型Qwen3-4B-Base。所有基於DeepSeek-R1-Distill-Qwen-1.5B的實驗均在8塊NVIDIA H200GPU上進行，而所有使用Qwen3- 4B-Base的實驗則在32塊NVIDIA H200 GPU上完成。

事實上，H200是英偉達基於H100於2023年11月發布的AI芯片，在H100的基礎上升級了HBM（高帶寬內存）至新一代HBM3e，顯存帶寬和內存容量大幅提升，而該兩項技術指標對於AI大模型訓練十分關鍵，因此絕對性能上H200不僅領先於此前中國市場無法獲得的H100，更大幅領先於中國特供版H20。

當前，H200尚未對華進行銷售，暫不清楚這些H200 GPU卡從何而來，論文也沒說明H200的來源地區。

今年1月6日，在美國拉斯維加斯舉辦的國際消費電子展（CES）期間，英偉達創始人、CEO黃仁勳回應中國客戶對其AI芯片H200的需求，稱客戶需求非常旺盛，英偉達已經重啓生產線，目前H200芯片正在量產。

論文提到，最終實驗表明，該方法在數學、代碼和科學推理任務中均優於傳統長上下文RL方法，並通過信息瓶頸理論證明監督學習無法優化摘要質量，而RL可實現壓縮率與信息保留的最優權衡。

根據結果來看，InftyThink+ 顯著降低了推理延遲，平均降幅達30%–40%。此外，引入效率獎勵進一步放大了這一效果，使延遲降低幅度達到60%–70%，主要源於迭代了推理的複雜度，使得訓練和推理階段效率提升，用更有用的強化學習方式實現更快的 rollout 和更高效的模型更新。

由於InftyThink具有高效的推理特性，因此在InftyThink+下進行的強化學習訓練比傳統的長上下文強化學習快得多。具體而言，傳統長上下文強化學習每步平均耗時300秒，而InftyThink+強化學習則將這一時間縮短至每步225秒，從而實現了約25%的提速。此外，引入效率獎勵後，訓練效率進一步提升，每步耗時隨訓練過程逐漸下降，平均降至175秒，相當於約40%的提速。在當前強化學習已成為推理模型主流訓練範式的背景下，InftyThink+提供了一種更高效的訓練框架，使研究人員能夠在相同的計算預算下，使用更多數據進行訓練並開展更廣泛的優化。

總結：最近，螞蟻一直在聯合各大高校做很多研究工作，導致幾乎每天的論文都有螞蟻團隊的身影，這也意味着，螞蟻正在擴大AI大模型技術層面的研究，聽聞也對AI研究者有更多的獎勵措施。

啱啱過去的一周，螞蟻集團旗下的螞蟻靈波科技（Robbyant）以一種近乎「飽和式攻擊」的節奏，連續四天開源發布了四款具身智能模型：高精度空間感知模型 LingBot-Depth、具身大模型 LingBot-VLA、世界模型 LingBot-World 到具身世界模型 LingBot-VA。

從AI大模型，到具身智能、AI應用，螞蟻都涉及其中，這可以看出螞蟻在AI領域的更大野心。

螞蟻集團CEO韓歆毅早前曾表示，中國 AI 大模型賽道競爭激烈，螞蟻將聚焦AI應用側，利用AI基座大模型技術做更強的技術服務能力。

「今天，我們永遠是在AI技術突破的邊界上做一款PMF產品，如果技術路線不收斂，產品很難突破；技術路線收斂了，我們就敢於往裏去投、去砸。大家說你聚焦AI應用，還要不要做基礎大模型，年初討論的時候我們答案非常堅決，一定要，因為如果基於AI做服務和應用，就像訓練一個人去做所有的事，追求智能上限，會讓這個人更加聰明，能夠做更多、更好的服務。我們很堅定去探索AGI、探索智能上限。」韓歆毅稱，未來，AI 時代將會重新定義一切。

螞蟻AI First戰略如下：

三大AI應用服務——AI金融管家、AI健康管家、AI生活管家；

四大技術探索——百靈基礎大模型、AI世界的支付與基礎能力、科技產業化、開源與開放；

兩大行業探索領域——AI 與物理世界融合（具身智能）、區塊鏈。

「跟很多創業公司相比，我們的優勢不是資源，而是人才，怎麼把我們的人才聚集到一起，其實靠的是協作。」韓歆毅表示，AI這件事很難，當前螞蟻是在與全球最頂級的AI團隊競爭，而且坦白說，這上面人家不光是跑得比我們早，也跑得比我們快。因此，對於螞蟻來說，目標並不是做一家全球最領先的大模型公司，而是依然聚焦於應用上，仍希望智能上限的探索使得AI應用層面有突破，「至少在某幾個領域我們要領先。」

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

獨家｜螞蟻百靈&浙大僅用8張英偉達H200 GPU卡，AI框架InftyThink+的DeepSeek-R1蒸餾版準確率提升21%

熱議股票