微博自研VibeThinker開源模型:15億參數超越千億級對手,訓練成本僅7800美元

新浪科技
2025/11/17

  當整個AI行業陷入「參數競賽」的狂熱時,微博AI交出了一份出乎意料的答卷,為沸騰的大模型戰場開闢了一條充滿想象力的新路徑。

  近日,微博正式發布首個自研開源大模型VibeThinker,這個僅擁有15億參數的「輕量級選手」,在國際頂級數學競賽基準測試上擊敗了參數量是其數百倍的,高達6710億的DeepSeek R1模型。

  更令人矚目的是,其單次「後訓練」的成本僅7800美元,對比DeepSeek-R1和MiniMax-M1等成本直接降低了幾十倍。這一突破不僅重新定義了大模型的技術評價標準,更有望推動AI產業從「規模競賽」轉向「效率革命」。

  行業黑馬:小模型打破參數崇拜

  在AI發展史上,參數量曾被視為衡量模型能力的核心指標。行業普遍認為,複雜推理能力需要1000億以上參數才能湧現,而小模型則因無法處理高難度問題被視為「天生不足」。

  但如果從小模型入手,通過巧妙的訓練策略,能否挖掘出隱藏的推理能力?微博自研開源大模型VibeThinker,給出了行業一個肯定的答案。

  當大多數AI廠商仍遵循着「規模擴大即智能提升」的 Scaling Law法則時,微博AI研發人員轉而優化模型結構和訓練範式,並創新提出了「頻譜到信號原理」(SSP)方法訓練,創造出了一個僅擁有15億參數的「輕量級選手」,但在AI競技場上戰勝了超越其數百倍體量的「巨人」。

  VibeThinker一經發布,立即引起了全球AI研究界的廣泛關注,因其在一系列涵蓋數學、編碼的權威基準測試中,交出了一份出乎意料的答卷:

HuggingFace官方主動發文宣傳VibeThinker論文

  在AIME24、AIME25以及HMMT25三個高難度數學測試集上的表現,VibeThinker超越了參數量超其400倍的模型DeepSeek-R1-0120版本(模型大小671B),與規模為456B的MiniMax-M1效果接近或相當,甚至媲美Gemini 2.5 flash和Claude Opus 4。

  此外,在LiveCodeBench v6(編程算法題測試集)中的成績,VibeThinker成功追平參數量數超其數十倍的模型,比如歐洲領先AI企業Minstral.AI的深度思考模型Magistral-Medium-2506版本。

  VibeThinker雄辯地證明,通過精巧的算法設計和訓練策略,一個小規模模型完全有潛力在複雜的邏輯推理任務上,達到甚至超越那些體量龐大數百倍的巨型模型,更為AI產業的成本結構、技術路線和資本佈局帶來了全新的思考路徑。

  需要說明的是,VibeThinker目前發布的版本尚處於實驗性版本,其研發重點主要集中於極大強化小模型複雜數學與競賽編程等方面的能力,其在日常聊天等能力還沒有做過針對性訓練優化,所以暫不適合作為日常聊天工具進行互動,更適用於數學和代碼等高智能應用場景。

  成本革命:7800美元門檻重塑產業生態

  訓練成本一直是制約AI技術普及的關鍵瓶頸,VibeThinker的成就不僅在於驚豔的性能,更在於其極致的成本效益。

  根據公開數據,2025年主流大模型單次後訓練(Post-Training)成本普遍在數十萬美元級別。上海AI企業MiniMax於今年6月發布的M1模型,使用512塊H800 GPU訓練三周,租賃成本約53.5萬美元,創始人發文表示:「第一次感覺到大山不是不能翻越。」

  今年9月,AI初創公司DeepSeek(深度求索)的論文登上《自然》雜誌。論文首次揭示了訓練R1的成本:僅為29.4萬美元。這不包括DeepSeek公司在開發R1所基於的基礎LLM上花費的約600萬美元,但總成本仍然遠低於競爭對手模型被認為花費的數千萬美元。

  在這樣的行業背景下,VibeThinker整個後訓練過程(包括SFT和RL階段)總共只花費了約3900個GPU小時。按照當時的市場租賃價格,總計算成本僅7800美元。

  這也意味着,其用不到8000美元的成本,達到了需要花費30萬甚至50萬美元才能企及的性能水平,成本效益比達到了驚人的30到60倍。

  這種成本上的顯著優勢,也意味着強大的AI推理能力不再是少數科技巨頭的專利,原本被巨頭壟斷的技術資源得以普惠,更多中小型公司、研究機構和大學,都有機會參與到前沿AI創新開發中來,極大地促進了AI研究的普惠化,推動整個行業朝着更開放、更多元、更具活力的方向發展。

  應用落地:微博AI生態多點開花

  技術突破的最終價值在於應用落地。

  微博積極擁抱人工智能發展趨勢,全面促進AI技術在多項業務場景的落地。2024年,微博自主研發「知微」大語言模型,併成功通過備案,更陸續推出微博智搜、內容總結、AI互動號等前沿功能,優化用戶體驗,提升內容生產和互動效率。

  基於自研的知微大模型,微博構建了適配微博場景的AI應用生態,並創造了兩大頂流AI產品:

  一是微博智搜,它通過深度分析平台內海量優質內容,構建可信知識圖譜,實現「精準捕捉用戶需求、理解情感與場景」的突破性體驗,6月智搜月活躍用戶突破5000萬;

  二是評論羅伯特,作為AI互動賬號,它從毒舌風格起步,逐漸進化出溫情與聰明版本,成為廣大用戶「又愛又恨」的交流對象,全網粉絲近200萬,展現了AI評論助手的另一種可能性。

  隨着自研大模型VibeThinker取得突破,更標誌着微博AI戰略邁入新階段。

  立足於自研大模型VibeThinker,微博的未來規劃凸顯了鮮明的「數據賦能」路徑。公司計劃深度融合其在心理等垂直領域積累的獨特數據資產,目標是打造一個更洞悉公衆情緒、更能服務社會化需求的專屬模型。微博不僅是在優化一個大模型,更是在解鎖其數據生態的深層價值,以提供更精準、更懂用戶心理狀態的下一代社交服務。

  VibeThinker的強大技術能力,或將成為驅動微博AI應用「多點開花」的核心引擎,深度融入平台全業務生態。未來,VibeThinker有望在微博智搜等核心AI產品中落地,不僅能持續提升用戶使用體驗,更有望打破場景邊界,裂變出兼具社交屬性與智能服務的 下一個「社交超級生態」。

  此外,VibeThinker的技術突破有望大幅降低微博AI應用成本。無論是智能搜索的算力損耗,還是實時互動場景的AI響應成本,都將得到高效優化,讓平台在規模化投入AI能力時無需承擔過高的資源壓力,進一步釋放微博的生態創新能力,為用戶帶來更豐富、更便捷的智能體驗。

海量資訊、精準解讀,盡在新浪財經APP

責任編輯:梁斌 SF055

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10