老黃入局喫龍蝦!英偉達發布最強開源Agent推理模型

量子位
昨天

克雷西 發自 凹非寺

量子位 | 公衆號 QbitAI

英偉達正式殺進龍蝦養殖場,帶着「最強開源龍蝦模型」走來了!

啱啱,英偉達發布並開源了120B參數的MoE模型Nemotron 3 Super

在評估OpenClaw智能體控制能力的PinchBench測試中,這個模型一舉拿下85.6%的高分,強勢空降同類開源模型榜首。

另外,在Artificial Intelligence Index中,Nemotron 3 Super也狂攬37分,直接甩開得分33分的GPT-OSS。

除了這個「龍蝦搭檔」,英偉達也開始在開源模型上全面發力了。

最新財務文件曝光,英偉達已經悄悄備好了260億美元(約合1789億人民幣)巨資,將在未來五年內將這筆充足彈藥全盤傾注於構建開源AI模型。

百萬上下文,5倍吞吐量

作為主攻多智能體協同的模型,Nemotron 3 Super原生支持100萬token的上下文窗口,為智能體在應對複雜多步流程時提供了不可或缺的長期記憶空間。

不僅文本處理容量龐大,它的運轉效率也實現了大幅度跨越,吞吐量直接提升至上一代Nemotron Super的5倍以上

同時,在處理代碼和工具調用等結構化生成任務時,Nemotron 3 Super最高能實現3倍的實際推理提速

在8k輸入與64k輸出的特定運行設定下,它的推理吞吐量達到了GPT-OSS-120B的2.2倍。

落地到具體的實操基準測試,這台新模型在代碼攻堅上給出了直觀的數據對比。

在軟件工程基準SWE-Bench中,它搭配OpenHands框架跑出了60.47%的準確率,而對標的GPT-OSS成績為41.9%。

面對考驗底層控制能力的終端操作環境,模型的發揮依然紮實,在Terminal Bench的困難子集測試裏,它以25.78%的得分,略微超過了GPT-OSS的24.00%。

當然,模型的常識推理水準也經受住了考驗。在MMLU-Pro測試中它拿下了83.73分,相比GPT-OSS的81.00分實現了進一步提升。

在模擬真實世界運作的複雜業務場景裏,它的落地能力同樣得到了驗證,在包含航空以及零售和電信三大領域的TauBench V2測試中,它交出了61.15%的平均成績。

面向Blackwell架構優化

Nemotron 3 Super能夠在實測中表現出色,主要歸功於其對模型架構的針對性優化。

為了在處理百萬級上下文時兼顧效率與精度,該模型採用了混合Mamba-Transformer架構

這種設計交織使用了具備線性時間複雜度的Mamba-2層來處理長序列任務,並在關鍵深度插入了Transformer全局注意力層,以確保模型在處理海量信息時仍能實現精準的關聯檢索。

在模型規模的擴展上,為了解決傳統混合專家架構在通信和計算上的瓶頸,模型引入了Latent MoE架構

這項技術在進行路由決策前,先將token投影到一個壓縮的低秩潛空間中進行降維處理。

這種方式使得模型能夠在維持同等推理成本的前提下,直接調用四倍數量的專家網絡,從而實現了更精細的專業化分工。

為了進一步提升生成速度,模型還原生應用了多token預測技術。

與逐個預測token的傳統模式不同,Nemotron 3 Super通過共享權重設計,在單次前向傳遞中即可並行預測未來的多個token。

這種機制不僅強化了模型對長程邏輯結構的理解,還為其帶來了內置的投機解碼能力,顯著縮短了代碼編寫和工具調用等複雜任務的生成耗時。

英偉達應用深度學習研究副總裁Bryan Catanzaro介紹,這正是模型響應速度快的原因之一。

此外,模型還在硬件層面進行了深度適配,採用了原生NVFP4格式進行預訓練

相比先訓練再量化的常規路徑,這種在25萬億個token上進行的低精度預訓練,讓模型從起步階段就完全適應了Blackwell架構的算力特性。

最終,模型在B200芯片上跑出了比H100快四倍的推理速度,在極大降低內存需求的同時,依然維持了穩健的準確率表現。

Agent能力針對性訓練

為了讓Nemotron 3 Super真正具備執行任務的智能體能力,英偉達在後訓練階段通過多層級的加固策略對其進行了全方位打磨。

在SFT階段,研發團隊採用了兩階段訓練工藝,第一階段通過標記級平均損失建立推理基礎,第二階段切換為樣本級平均損失,有效解決了長輸入場景下的性能降級問題,確保模型在處理海量信息時依然能給出精準的短輸出。

針對實際應用中的智能體命令行交互,英偉達構建了一個包含2萬個初始查詢的種子任務集,並利用模型作為裁判進行了精細過濾,最終沉澱出1.5萬個核心合成任務。

通過從高性能模型中蒸餾操作軌跡,Nemotron 3 Super成功將複雜的終端交互知識內化為自身的原生技能。

進入強化學習階段後,模型被投入到NeMo Gym平台的21種真實環境配置中進行高強度「拉練」。

這裏的考覈標準不再是簡單的對話滿意度,深入到了工具調用的準確性、功能代碼的可執行性以及複雜計劃的完整性等核心維度。

針對門檻極高的軟件工程任務,模型還經歷了專門的SWE-RL階段,在隔離的容器環境中通過不斷的執行反饋來修正自身的邏輯漏洞。

此外,為了在追求效率的同時避免模型在陌生領域出現偏差,英偉達還引入了PivotRL技術。

這種方法在智能體編程和搜索等關鍵領域,通過重點強化專家軌跡中那些不確定性較高的決策點,提升了模型在多步工作流中的行為穩定性,有效遏制了長程任務中常見的推理漂移風險。

260億美元投向開源模型

新開源模型強勢登場之際,英偉達更遠大的開源計劃也已曝光:在未來五年內全盤傾注260億美元巨資用於構建開源AI模型,並藉此在自家的超級計算機級數據中心裏搞一場極限拉練。

這筆投入不僅是為模型研發準備的充足彈藥,更是為了通過跑起這些自家優化的開源模型,對計算、存儲和網絡性能進行全方位的壓力測試。

隨後,這些從實戰中壓榨出的寶貴數據,將被直接拿來反哺並規劃未來的硬件架構路線圖,真正實現由軟件實操來定義硬件進化的技術路徑。

在資源輸出端,英偉達這次也表現得毫無保留,對外全面開放了模型的全參數權重,以及訓練、評估配方和詳細的部署手冊。

這種慷慨的行為背後,也有着英偉達更高維度的謀劃——通過親手推動整個開源生態的強健發育,引導全球開發者將創新的根基更加牢固地綁定在自家的技術底座之中。

GitHub:

https://github.com/NVIDIA-NeMo/Nemotron/tree/main/usage-cookbook/Nemotron-3-Super

技術報告:

https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf

參考鏈接:

[1]https://developer.nvidia.com/blog/introducing-nemotron-3-super-an-open-hybrid-mamba-transformer-moe-for-agentic-reasoning/

[2]https://www.wired.com/story/nvidia-investing-26-billion-open-source-models/

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10