Odaily星球日報訊 根據上週五發布的一篇新研究論文,斯坦福大學和華盛頓大學的人工智能研究人員能夠以不到 50 美元的雲計算積分訓練一個人工智能“推理”模型。 在衡量數學和編碼能力的測試中,被稱爲 s1 的模型表現類似於尖端推理模型,例如 OpenAI 的 o1 和 DeepSeek 的 r1。s1 模型以及用於訓練它的數據和代碼可在 GitHub 上找到。 s1 背後的團隊表示,他們通過提煉(distillation)創建了人工智能模型,這是一種通過訓練另一個人工智能模型的答案來提取“推理”能力的過程。研究人員表示,s1 是從谷歌的推理模型之一 Gemini 2.0 Flash Thinking Experimental 中提煉出來的。提煉是伯克利研究人員上個月以約 450 美元的價格創建人工智能推理模型所採用的相同方法。 s1 背後的研究人員正在尋找實現強大推理性能和“測試時間擴展”的最簡單方法,或者讓 AI 模型在回答問題之前進行更多思考。這些是 OpenAI 的 o1 中的一些突破,其他 AI 實驗室試圖通過各種技術複製這些突破。s1 論文提出,可以使用一種稱爲監督微調(SFT)的過程,利用相對較小的數據集提煉推理模型,在此過程中,明確指示 AI 模型模仿數據集中的某些行爲。SFT 往往比 DeepSeek 用於訓練其對 OpenAI 的 o1、R1 的答案的大規模強化學習方法更便宜。 s1 基於阿里巴巴旗下中國 AI 實驗室 Qwen 的一個小型現成 AI 模型,可免費下載。爲了訓練 s1,研究人員創建了一個僅包含 1,000 個精心策劃的問題的數據集,並附上這些問題的答案以及 Google 的 Gemini 2.0 Flash Thinking Experimental 中每個答案背後的“思考”過程。 據研究人員稱,在使用 16 個 Nvidia H100 GPU 不到 30 分鐘的時間內訓練 s1 後,s1 在某些 AI 基準測試中取得了強勁的表現。參與該項目的斯坦福大學研究員 Niklas Muennighoff 稱,他現在就可以以大約 20 美元的價格租用必要的計算機。(TechCrunch)
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。