這次,螞蟻百靈團隊開始測試英偉達H200 AI計算卡能力了。
2月9日消息,浙江大學、螞蟻集團的百靈AI團隊、北京大學研究團隊,近期聯合研發了一種基於強化學習的端到端框架InftyThink+,旨在解決大模型推理中的上下文長度限制、計算複雜度和中間信息丟失問題。
研究團隊利用8張英偉達H200 AI計算卡,基於InftyThink+的訓練方式,在DeepSeek-R1-Distill-Qwen-1.5B模型上實現AIME24準確率提升21%,推理延遲降低32.8%,並在效率獎勵下進一步減少60%-70%延遲。
據悉,本論文作者當中,包括螞蟻百靈的負責人周俊,以及Shuaicheng Li(李帥成,音譯),Zujie Wen(溫祖傑,音譯),Zhiqiang Zhang(張志強,音譯)。
項目:https://zju-real.github.io/InftyThink-Plus
代碼: https://github.com/ZJU-REAL/InftyThink-Plus
論文:https://arxiv.org/abs/2602.06960
「我們提出了InftyThink+,這是一種端到端的強化學習框架,可在軌跡級別優化迭代推理。通過將格式學習與策略優化分離,InftyThink+使模型能夠學習何時壓縮、如何壓縮以及如何有效延續。實驗表明,與基於SFT的迭代推理和標準長上下文強化學習相比,InftyThink+在準確率上始終有所提升,同時顯著降低了推理延遲。這些改進源於所學習的自適應行為,而非啓發式方法,這凸顯了軌跡級別優化的重要性。我們在附錄 A.中進一步討論了InftyThink+的侷限性及其未來發展方向。」論文作者表示。
具體來看,傳統長鏈推理存在三大瓶頸:自注意力機制導致的二次複雜度、上下文窗口硬限制以及"中間信息丟失"現象。現有迭代推理方法依賴監督學習或固定啓發式策略,無法動態優化何時壓縮、如何壓縮及如何繼續推理。
2025年,浙江大學團隊,聯合美團等研究團隊,開發了一種將長文本推理數據集重構為迭代格式的方法InftyThink,將OpenR1-Math轉化為33.3萬條訓練實例,在降低計算成本的同時提高性能,Qwen2.5-Math-7B在MATH500、AIME24和GPQA_diamond基準測試中顯示出3-13%的性能提升。
論文題目:INFTYTHINK: Breaking the Length Limits of Long-Context Reasoning in Large Language Models
論文地址:https://arxiv.org/pdf/2503.06692
如今,11個月後的今天,浙江大學研究團隊聯合螞蟻百靈團隊再度出手,研發出全新的InftyThink+端到端深度學習框架,通過兩階段訓練方案突破這些限制:首先通過監督微調建立迭代推理格式,再通過軌跡級強化學習優化策略。
InftyThink+核心創新在於將格式學習與策略優化分離,通過軌跡級優勢估計和效率獎勵函數,使模型自主學習動態壓縮時機和摘要生成策略,同時保持推理深度與效率的平衡。
從模型訓練層面,該方法使用DeepSeek-R1蒸餾而來的DeepSeek-R1-Distill-Qwen-1.5B,以及未經後訓練的預訓練模型Qwen3-4B-Base。所有基於DeepSeek-R1-Distill-Qwen-1.5B的實驗均在8塊NVIDIA H200GPU上進行,而所有使用Qwen3- 4B-Base的實驗則在32塊NVIDIA H200 GPU上完成。
事實上,H200是英偉達基於H100於2023年11月發布的AI芯片,在H100的基礎上升級了HBM(高帶寬內存)至新一代HBM3e,顯存帶寬和內存容量大幅提升,而該兩項技術指標對於AI大模型訓練十分關鍵,因此絕對性能上H200不僅領先於此前中國市場無法獲得的H100,更大幅領先於中國特供版H20。
當前,H200尚未對華進行銷售,暫不清楚這些H200 GPU卡從何而來,論文也沒說明H200的來源地區。
今年1月6日,在美國拉斯維加斯舉辦的國際消費電子展(CES)期間,英偉達創始人、CEO黃仁勳回應中國客戶對其AI芯片H200的需求,稱客戶需求非常旺盛,英偉達已經重啓生產線,目前H200芯片正在量產。
論文提到,最終實驗表明,該方法在數學、代碼和科學推理任務中均優於傳統長上下文RL方法,並通過信息瓶頸理論證明監督學習無法優化摘要質量,而RL可實現壓縮率與信息保留的最優權衡。
根據結果來看,InftyThink+ 顯著降低了推理延遲,平均降幅達30%–40%。此外,引入效率獎勵進一步放大了這一效果,使延遲降低幅度達到60%–70%,主要源於迭代了推理的複雜度,使得訓練和推理階段效率提升,用更有用的強化學習方式實現更快的 rollout 和更高效的模型更新。
由於InftyThink具有高效的推理特性,因此在InftyThink+下進行的強化學習訓練比傳統的長上下文強化學習快得多。具體而言,傳統長上下文強化學習每步平均耗時300秒,而InftyThink+強化學習則將這一時間縮短至每步225秒,從而實現了約25%的提速。此外,引入效率獎勵後,訓練效率進一步提升,每步耗時隨訓練過程逐漸下降,平均降至175秒,相當於約40%的提速。在當前強化學習已成為推理模型主流訓練範式的背景下,InftyThink+提供了一種更高效的訓練框架,使研究人員能夠在相同的計算預算下,使用更多數據進行訓練並開展更廣泛的優化。
總結:最近,螞蟻一直在聯合各大高校做很多研究工作,導致幾乎每天的論文都有螞蟻團隊的身影,這也意味着,螞蟻正在擴大AI大模型技術層面的研究,聽聞也對AI研究者有更多的獎勵措施。
啱啱過去的一周,螞蟻集團旗下的螞蟻靈波科技(Robbyant)以一種近乎「飽和式攻擊」的節奏,連續四天開源發布了四款具身智能模型:高精度空間感知模型 LingBot-Depth、具身大模型 LingBot-VLA、世界模型 LingBot-World 到具身世界模型 LingBot-VA。
從AI大模型,到具身智能、AI應用,螞蟻都涉及其中,這可以看出螞蟻在AI領域的更大野心。
螞蟻集團CEO韓歆毅早前曾表示,中國 AI 大模型賽道競爭激烈,螞蟻將聚焦AI應用側,利用AI基座大模型技術做更強的技術服務能力。
「今天,我們永遠是在AI技術突破的邊界上做一款PMF產品,如果技術路線不收斂,產品很難突破;技術路線收斂了,我們就敢於往裏去投、去砸。大家說你聚焦AI應用,還要不要做基礎大模型,年初討論的時候我們答案非常堅決,一定要,因為如果基於AI做服務和應用,就像訓練一個人去做所有的事,追求智能上限,會讓這個人更加聰明,能夠做更多、更好的服務。我們很堅定去探索AGI、探索智能上限。」韓歆毅稱,未來,AI 時代將會重新定義一切。
螞蟻AI First戰略如下:
三大AI應用服務——AI金融管家、AI健康管家、AI生活管家;
四大技術探索——百靈基礎大模型、AI世界的支付與基礎能力、科技產業化、開源與開放;
兩大行業探索領域——AI 與物理世界融合(具身智能)、區塊鏈。
「跟很多創業公司相比,我們的優勢不是資源,而是人才,怎麼把我們的人才聚集到一起,其實靠的是協作。」韓歆毅表示,AI這件事很難,當前螞蟻是在與全球最頂級的AI團隊競爭,而且坦白說,這上面人家不光是跑得比我們早,也跑得比我們快。因此,對於螞蟻來說,目標並不是做一家全球最領先的大模型公司,而是依然聚焦於應用上,仍希望智能上限的探索使得AI應用層面有突破,「至少在某幾個領域我們要領先。」