訓練成本不到50美元,研究人員打造出媲美OpenAI o1的推理模型

IT之家
02-06

2 月 6 日消息,一份上週五發布的研究報告顯示,斯坦福大學和華盛頓大學的人工智能研究人員僅花費不到 50 美元(IT之家備註:當前約 364 元人民幣)的雲計算費用,就成功訓練出一個具備“推理”能力的人工智能模型。

該模型名爲 s1,在數學和編程能力測試中表現出與 OpenAI 的 o1 和 DeepSeek 的 r1 等頂尖推理模型相似的水平。目前,s1 模型及其訓練所用的數據和代碼已在 GitHub 上開源。

s1 團隊表示,他們通過“蒸餾”技術創建了該人工智能模型,該技術旨在通過訓練模型來學習另一個人工智能模型的答案,從而提取其“推理”能力。研究人員透露,s1 是從谷歌的推理模型 Gemini 2.0 Flash Thinking Experimental 中蒸餾出來的。上個月,加州大學伯克利分校的研究人員也使用了相同的蒸餾方法,以約 450 美元的成本創建了一個人工智能推理模型。

類似 s1 模型的出現也引發了關於人工智能模型商品化的問題 —— 如果有人可以用相對較低的成本就能複製一個價值數百萬美元的模型,那麼大型科技公司的“護城河”在哪裏呢?

不出所料,大型人工智能實驗室對此並不滿意,例如 OpenAI 此前就指責 DeepSeek 不當獲取其 API 數據用於模型蒸餾。

s1 的研究人員希望找到實現強大推理性能和“測試時擴展”(即允許人工智能模型在回答問題之前進行更多思考)的最簡單方法,這些是 OpenAI 的 o1 中的一些突破。

s1 的論文表明,可以使用一種稱爲監督微調(SFT)的方法,可以使用相對較小的數據集來蒸餾推理模型。在 SFT 中,人工智能模型會被明確指示在數據集中模仿某些行爲。SFT 比 DeepSeek 用於訓練其 R1 模型的大規模強化學習方法更具成本效益。

谷歌通過其 Google AI Studio 平臺免費提供 Gemini 2.0 Flash Thinking Experimental 模型的訪問權限,但每天有使用限制。然而,其條款禁止對模型進行逆向工程,以開發與谷歌自身人工智能產品競爭的服務。

S1 基於阿里巴巴旗下中國人工智能實驗室 Qwen 提供的一款小型、現成的免費人工智能模型。爲了訓練 s1,研究人員創建了一個僅包含 1000 個精心策劃的問題的數據集,以及這些問題的答案,以及谷歌 Gemini 2.0 Flash Thinking Experimental 給出的每個答案背後的“思考”過程。

研究人員表示,在訓練 s1 後(使用 16 個 Nvidia H100 GPU,耗時不到 30 分鐘),s1 在某些人工智能基準測試中取得了良好的表現。參與該項目的斯坦福大學研究員 Niklas Muennighoff 告訴 TechCrunch,目前租用這些計算資源的成本約爲 20 美元。

研究人員使用了一個巧妙的技巧來讓 s1 檢查其工作並延長其“思考”時間:他們讓它“等待”。論文顯示,在 s1 的推理過程中添加“等待”一詞,有助於模型獲得稍微更準確的答案。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10