全球掀DeepSeek復現狂潮！硅谷巨頭神話崩塌，30刀見證啊哈時刻

媒體滾動

01-26

專題：DeepSeek爲何能震動全球AI圈

　　新智元報道

　　編輯：編輯部 HYZ

　　【新智元導讀】就在剛剛，網上已經出現了一波復現DeepSeek的狂潮。UC伯克利、港科大、HuggingFace等紛紛成功復現，只用強化學習，沒有監督微調，30美元就能見證‘啊哈時刻’！全球AI大模型，或許正在進入下一分水嶺。

　　這些天，硅谷徹底處於中國公司帶來的大地震餘波中。

　　全美都在恐慌：是否全球人工智能的中心已經轉移到了中國？

　　就在這當口，全球復現DeepSeek的一波狂潮也來了。

　　誠如LeCun所言：‘這一次，正是開源對閉源的勝利！’

　　種種這些觀點和討論，讓人不禁懷疑：數百億美元支出，對這個行業真的必要嗎？甚至有人說，中國量化基金的一羣天才，將導致納斯達克崩盤。

　　從此，大模型時代很可能會進入一個分水嶺：超強性能的模型不再獨屬於算力巨頭，而是屬於每個人。

　　30美金，就能看到‘啊哈’時刻

　　來自UC伯克利博士生潘家怡和另兩位研究人員，在CountDown遊戲中復現了DeepSeek R1-Zero。

　　他們表示，結果相當出色！

　　實驗中，團隊驗證了通過強化學習RL，3B的基礎語言模型也能夠自我驗證和搜索。

　　更令人興奮的是，成本不到30美金（約217元），就可以親眼見證‘啊哈’時刻。

　　這個項目叫做TinyZero，採用了R1-Zero算法——給定一個基礎語言模型、提示和真實獎勵信號，運行強化學習。

　　然後，團隊將其應用在CountDown遊戲中（這是一個玩家使用基礎算術運算，將數字組合以達到目標數字的遊戲）。

　　模型從最初的簡單輸出開始，逐步進化出自我糾正和搜索的策略。

　　在以下示例中，模型提出瞭解決方案，自我驗證，並反覆糾正，直到解決問題爲止。

　　在消融實驗中，研究人員運行了Qwen-2.5-Base（0.5B、1.5B、3B、7B四種參數規模）。

　　結果發現，0.5B模型僅僅是猜測一個解決方案然後停止。而從1.5B開始，模型學會了搜索、自我驗證和修正其解決方案，從而能夠獲得更高的分數。

　　他們認爲，在這個過程，基礎模型的是性能的關鍵。

　　他們還驗證了，額外的指令微調（SFT）並非是必要的，這也印證了R1-Zero的設計決策。

　　這是首個驗證LLM推理能力的實現可以純粹通過RL，無需監督微調的開源研究

　　基礎模型和指令模型兩者區別：

　　此外，他們還發現，具體的RL算法並不重要。PPO、GRPO、PRIME這些算法中，長思維鏈（Long CoT）都能夠湧現，且帶來不錯的性能表現。

　　而且，模型在推理行爲中非常依賴於具體的任務：

　　蘋果機器學習科學家Yizhe Zhang對此表示，太酷了，小到1.5B的模型，也能通過RL湧現出自我驗證的能力。

　　7B模型復刻，結果令人驚訝

　　港科大助理教授何俊賢的團隊（共同一作黃裕振、Weihao Zeng），只用了8K個樣本，就在7B模型上覆刻出了DeepSeek-R1-Zero和DeepSeek-R1的訓練。

　　結果令人驚喜——模型在複雜的數學推理上取得了十分強勁結果。

　　項目地址：https：//github.com/hkust-nlp/simpleRL-reason

　　他們以Qwen2.5-Math-7B（基礎模型）爲起點，直接對其進行強化學習。

　　整個過程中，沒有進行監督微調（SFT），也沒有使用獎勵模型。

　　最終，模型在AIME基準上實現了33.3%的準確率，在AMC上爲62.5%，在MATH上爲77.2%。

　　這一表現不僅超越了Qwen2.5-Math-7B-Instruct，並且還可以和使用超過50倍數據量和更復雜組件的PRIME和rStar-MATH相媲美！

　　其中，Qwen2.5-7B-SimpleRL-Zero是在Qwen2.5-Math-7B基礎模型上僅使用純PPO方法訓練的，僅採用了MATH數據集中的8K樣本。

　　Qwen2.5-7B-SimpleRL則首先通過Long CoT監督微調（SFT）作爲冷啓動，然後再進行強化學習。

　　在這兩種方法中，團隊都只使用了相同的8K MATH樣本，僅此而已。

　　大概在第44步的時候，‘啊哈時刻’出現了！模型的響應中，出現了自我反思。

　　並且，在這個過程中，模型還顯現了更長的CoT推理能力和自我反思能力。

　　在博客中，研究者詳細剖析了實驗設置，以及在這個強化學習訓練過程中所觀察到的現象，例如長鏈式思考（CoT）和自我反思機制的自發形成。

　　與DeepSeek R1類似，研究者的強化學習方案極其簡單，沒有使用獎勵模型或MCTS（蒙特卡洛樹搜索）類技術。

　　他們使用的是PPO算法，並採用基於規則的獎勵函數，根據生成輸出的格式和正確性分配獎勵：

　　該實現基於OpenRLHF。初步試驗表明，這個獎勵函數有助於策略模型快速收斂，產生符合期望格式的輸出。

　　第一部分：SimpleRL-Zero（從頭開始的強化學習）

　　接下來，研究者爲我們分享了訓練過程動態分析和一些有趣的湧現模式。

　　訓練過程動態分析

　　如下所示，所有基準測試的準確率在訓練過程中都在穩步提高，而輸出長度則呈現先減少後逐漸增加的趨勢。

　　經過進一步調查，研究者發現，Qwen2.5-Math-7B基礎模型在初始階段傾向於生成大量代碼，這可能源於模型原始訓練數據的分佈特徵。

　　輸出長度的首次下降，是因爲強化學習訓練逐漸消除了這種代碼生成模式，轉而學會使用自然語言進行推理。

　　隨後，生成長度開始再次增加，此時出現了自我反思機制。

　　訓練獎勵和輸出長度

　　基準測試準確率（pass@1）和輸出長度

　　自我反思機制的湧現

　　在訓練到第 40 步左右時，研究者觀察到：模型開始形成自我反思模式，這正是DeepSeek-R1論文中所描述的‘aha moment’（頓悟時刻）。

　　第二部分：SimpleRL（基於模仿預熱的強化學習）

　　如前所述，研究者在進行強化學習之前，先進行了long CoT SFT預熱，使用了8，000個從QwQ-32B-Preview中提取的MATH示例響應作爲SFT數據集。

　　這種冷啓動的潛在優勢在於：模型在開始強化學習時已具備long CoT思維模式和自我反思能力，從而可能在強化學習階段實現更快更好的學習效果。

　　與RL訓練前的模型（Qwen2.5-Math-7B-Base + 8K QwQ知識蒸餾版本）相比，Qwen2.5-7B-SimpleRL的平均性能顯著提升了6.9個百分點。

　　此外，Qwen2.5-7B-SimpleRL不僅持續優於Eurus-2-7B-PRIME，還在5個基準測試中的3個上超越了Qwen2.5-7B-SimpleRL-Zero。

　　訓練過程分析

　　訓練獎勵和輸出長度

　　基準測試準確率（pass@1）和輸出長度

　　Qwen2.5-SimpleRL的訓練動態表現與Qwen2.5-SimpleRL-Zero相似。

　　有趣的是，儘管研究者先進行了long CoT SFT，但在強化學習初期仍然觀察到輸出長度減少的現象。

　　他們推測，這可能是因爲從QwQ提取的推理模式不適合小型策略模型，或超出了其能力範圍。

　　因此，模型選擇放棄這種模式，轉而自主發展新的長鏈式推理方式。

　　最後，研究者用達芬奇的一句話，對這項研究做了總結——

　　簡約，便是最終極的精緻。

　　完全開源復刻，HuggingFace下場了

　　甚至，就連全球最大開源平臺HuggingFace團隊，今天官宣復刻DeepSeek R1所有pipeline。

　　復刻完成後，所有的訓練數據、訓練腳本等等，將全部開源。

　　這個項目叫做Open R1，當前還在進行中。發佈到一天，星標衝破1.9k，斬獲142個fork。

　　項目地址：https：//github.com/huggingface/open-r1

　　研究團隊以DeepSeek-R1技術報告爲指導，將整個復刻過程劃分爲三個關鍵步驟。

　　從斯坦福到MIT，R1成爲首選

　　一個副業項目，讓全世界科技大廠爲之惶恐。

　　DeepSeek這波成功，也成爲業界的神話，網友最新截圖顯示，這款應用已經在APP Store‘效率’應用榜單中擠進前三。

　　在Hugging Face中，R1下載量直接登頂，另外3個模型也霸佔着熱榜。

　　a16z合夥人Anjney Midha稱，一夜之間，從斯坦福到MIT，DeepSeek R1已經成爲美國頂尖高校研究人員‘首選模型’。

　　還有研究人員表示，DeepSeek基本上取代了我用ChatGPT的需求。

　　中國AI，這一次真的震撼了世界。

　　參考資料：

　　https：//x.com/junxian_he/status/1883183099787571519

　　https：//x.com/jiayi_pirate/status/1882839370505621655

海量資訊、精準解讀，盡在新浪財經APP

責任編輯：石秀珍 SF183

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

熱議股票

1
2
3
4
5
6
7
8
9
10

{"basename":"/hant","ssrTDKData":{"titleTemplate":"%s - 老虎證券","title":"老虎证券全球投资理财平台| 一站式投资美股新股港股A股","description":"老虎证券助您一站式投资美股，新股，港股，A股等全球金融理财产品。新加坡华人最信赖的在线投资平台，现在加入即享低费用，24/5 无时差炒美股投资理财！","keywords":"老虎證券,老虎證券開戶,老虎券商,老虎證券官網,老虎證券app,tigertrade老虎證券,股票,炒股,新加坡股票交易平臺,投資,投資理財","social":{"ogDescription":"老虎证券助您一站式投资美股，新股，港股，A股等全球金融理财产品。新加坡华人最信赖的在线投资平台，现在加入即享低费用，24/5 无时差炒美股投资理财！","ogImage":"https://c1.itigergrowtha.com/portal5/static/media/og-logo.be62fbe1.png","ogUrl":"https://www.itiger.com/hant/news/2506380730"},"companyName":"老虎證券"},"pageData":{"isMobile":false,"isTiger":false,"isTTM":true,"region":"SGP","license":"TBSG","edition":"fundamental"},"__swrFallback__":{"@#url:\"https://stock-news.skytigris.cn/v3/news\",params:#id:\"2506380730\",edition:\"fundamental\",,,undefined,":{"share":"https://ttm.financial/m/news/2506380730?lang=zh_TW&edition=fundamental","thumbnail":"","is_english":false,"pubTime":"2025-01-26 11:58","share_image_url":"https://static.laohu8.com/b0d1b7e8843deea78cc308b15114de44","id":"2506380730","market":"hk","top_or_hot":-1,"title":"全球掀DeepSeek復現狂潮！硅谷巨頭神話崩塌，30刀見證啊哈時刻","media":"媒體滾動","content":"<html><body><div>\n<p> 專題：DeepSeek爲何能震動全球AI圈</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/143/w660h283/20250126/1e7e-121f390fe7e5ef19b0ed5bbf7e5cef51.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　<font cms-style=\"font-L strong-Bold\">新智元報道</font></p>\n<p cms-style=\"font-L\">　　編輯：編輯部 HYZ</p>\n<p cms-style=\"font-L\">　　<font cms-style=\"font-L strong-Bold\">【新智元導讀】</font>就在剛剛，網上已經出現了一波復現DeepSeek的狂潮。UC伯克利、港科大、HuggingFace等紛紛成功復現，只用強化學習，沒有監督微調，30美元就能見證‘啊哈時刻’！全球AI大模型，或許正在進入下一分水嶺。</p>\n<p cms-style=\"font-L\">　　這些天，硅谷徹底處於中國公司帶來的大地震餘波中。</p>\n<p cms-style=\"font-L\">　　全美都在恐慌：是否全球人工智能的中心已經轉移到了中國？</p>\n<p cms-style=\"font-L\">　　就在這當口，全球復現DeepSeek的一波狂潮也來了。</p>\n<p cms-style=\"font-L\">　　誠如LeCun所言：‘這一次，正是開源對閉源的勝利！’</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/178/w660h318/20250126/1817-db17f0906a926b2180ee16078d8beb47.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　種種這些觀點和討論，讓人不禁懷疑：<a href=\"https://laohu8.com/S/SBAY\">數百億</a>美元支出，對這個行業真的必要嗎？甚至有人說，中國量化基金的一羣天才，將導致納斯達克崩盤。</p>\n<p cms-style=\"font-L\">　　從此，大模型時代很可能會進入一個分水嶺：超強性能的模型不再獨屬於算力巨頭，而是屬於每個人。</p>\n<p cms-style=\"font-L\">　　30美金，就能看到‘啊哈’時刻</p>\n<p cms-style=\"font-L\">　　來自UC伯克利博士生潘家怡和另兩位研究人員，在CountDown遊戲中復現了DeepSeek R1-Zero。</p>\n<p cms-style=\"font-L\">　　他們表示，結果相當出色！</p>\n<p cms-style=\"font-L\">　　實驗中，團隊驗證了通過強化學習RL，3B的基礎語言模型也能夠自我驗證和搜索。</p>\n<p cms-style=\"font-L\">　　更令人興奮的是，成本不到30美金（約217元），就可以親眼見證‘啊哈’時刻。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/146/w660h286/20250126/53a1-b25aa213231216155ce8525580ab2403.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　這個項目叫做TinyZero，採用了R1-Zero算法——給定一個基礎語言模型、提示和真實獎勵信號，運行強化學習。</p>\n<p cms-style=\"font-L\">　　然後，團隊將其應用在CountDown遊戲中（這是一個玩家使用基礎算術運算，將數字組合以達到目標數字的遊戲）。</p>\n<p cms-style=\"font-L\">　　模型從最初的簡單輸出開始，逐步進化出自我糾正和搜索的策略。</p>\n<p cms-style=\"font-L\">　　在以下示例中，模型提出瞭解決方案，自我驗證，並反覆糾正，直到解決問題爲止。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/255/w660h395/20250126/59d4-1db8aba34d2bcd55aa92e56980c52b50.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　在消融實驗中，研究人員運行了Qwen-2.5-Base（0.5B、1.5B、3B、7B四種參數規模）。</p>\n<p cms-style=\"font-L\">　　結果發現，0.5B模型僅僅是猜測一個解決方案然後停止。而從1.5B開始，模型學會了搜索、自我驗證和修正其解決方案，從而能夠獲得更高的分數。</p>\n<p cms-style=\"font-L\">　　他們認爲，在這個過程，基礎模型的是性能的關鍵。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/423/w660h563/20250126/0929-0f10dd1229a81caa601ca944e6cf1b50.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　他們還驗證了，額外的指令微調（SFT）並非是必要的，這也印證了R1-Zero的設計決策。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/76/w660h216/20250126/eed2-1699e020e9705281a935931fe08efed2.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　這是首個驗證LLM推理能力的實現可以純粹通過RL，無需監督微調的開源研究</p>\n<p cms-style=\"font-L\">　　基礎模型和指令模型兩者區別：</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/435/w660h575/20250126/d87a-0b6a98f9113eaadb08c5edc6d8ea578b.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　此外，他們還發現，具體的RL算法並不重要。PPO、GRPO、PRIME這些算法中，長思維鏈（Long CoT）都能夠湧現，且帶來不錯的性能表現。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/550/w660h690/20250126/cc01-920018f2430ca719f710543ec2836100.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　而且，模型在推理行爲中非常依賴於具體的任務：</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/253/w660h393/20250126/8d64-08c7802cd1c476222fc788836ad036a5.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　<a href=\"https://laohu8.com/S/AAPL\">蘋果</a>機器學習科學家Yizhe Zhang對此表示，太酷了，小到1.5B的模型，也能通過RL湧現出自我驗證的能力。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/790/w660h130/20250126/afd8-a2f2a95a98f86e8d7978f79299a47c05.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　7B模型復刻，結果令人驚訝</p>\n<p cms-style=\"font-L\">　　港科大助理教授何俊賢的團隊（共同一作黃裕振、Weihao Zeng），只用了8K個樣本，就在7B模型上覆刻出了DeepSeek-R1-Zero和DeepSeek-R1的訓練。</p>\n<p cms-style=\"font-L\">　　結果令人驚喜——模型在複雜的數學推理上取得了十分強勁結果。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/1/w660h141/20250126/c45b-bf3d14780648741268bcd5ff8cb559c4.jpg\"/><span></span></div>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/161/w660h301/20250126/8231-3325b598b31002938b0458c5b419144a.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　項目地址：https：//github.com/hkust-nlp/simpleRL-reason</p>\n<p cms-style=\"font-L\">　　他們以Qwen2.5-Math-7B（基礎模型）爲起點，直接對其進行強化學習。</p>\n<p cms-style=\"font-L\">　　整個過程中，沒有進行監督微調（SFT），也沒有使用獎勵模型。</p>\n<p cms-style=\"font-L\">　　最終，模型在AIME基準上實現了33.3%的準確率，在AMC上爲62.5%，在MATH上爲77.2%。</p>\n<p cms-style=\"font-L\">　　這一表現不僅超越了Qwen2.5-Math-7B-Instruct，並且還可以和使用超過50倍數據量和更復雜組件的PRIME和rStar-MATH相媲美！</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/235/w660h375/20250126/56e6-8b3dab75b967691a7f654521c7ef3ab9.jpg\"/><span></span></div>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/198/w660h338/20250126/31e1-444149e6eb72f645f7b1383ef5301743.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　其中，Qwen2.5-7B-SimpleRL-Zero是在Qwen2.5-Math-7B基礎模型上僅使用純PPO方法訓練的，僅採用了MATH數據集中的8K樣本。</p>\n<p cms-style=\"font-L\">　　Qwen2.5-7B-SimpleRL則首先通過Long CoT監督微調（SFT）作爲冷啓動，然後再進行強化學習。</p>\n<p cms-style=\"font-L\">　　在這兩種方法中，團隊都只使用了相同的8K MATH樣本，僅此而已。</p>\n<p cms-style=\"font-L\">　　大概在第44步的時候，‘啊哈時刻’出現了！模型的響應中，出現了自我反思。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/128/w660h268/20250126/428a-22aabfe13ee5075576f6742a88570048.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　並且，在這個過程中，模型還顯現了更長的CoT推理能力和自我反思能力。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/232/w660h372/20250126/8cac-0ee8e5b4624e062841768b70cf2624ac.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　在博客中，研究者詳細剖析了實驗設置，以及在這個強化學習訓練過程中所觀察到的現象，例如長鏈式思考（CoT）和自我反思機制的自發形成。</p>\n<p cms-style=\"font-L\">　　與DeepSeek R1類似，研究者的強化學習方案極其簡單，沒有使用獎勵模型或MCTS（蒙特卡洛樹搜索）類技術。</p>\n<p cms-style=\"font-L\">　　他們使用的是PPO算法，並採用基於規則的獎勵函數，根據生成輸出的格式和正確性分配獎勵：</p>\n<p cms-style=\"font-L\">　　該實現基於OpenRLHF。初步試驗表明，這個獎勵函數有助於策略模型快速收斂，產生符合期望格式的輸出。</p>\n<p cms-style=\"font-L\">　　<font cms-style=\"font-L strong-Bold\">第一部分：SimpleRL-Zero（從頭開始的強化學習）</font></p>\n<p cms-style=\"font-L\">　　接下來，研究者爲我們分享了訓練過程動態分析和一些有趣的湧現模式。</p>\n<p cms-style=\"font-L\">　　<font cms-style=\"font-L strong-Bold\">訓練過程動態分析</font></p>\n<p cms-style=\"font-L\">　　如下所示，所有基準測試的準確率在訓練過程中都在穩步提高，而輸出長度則呈現先減少後逐漸增加的趨勢。</p>\n<p cms-style=\"font-L\">　　經過進一步調查，研究者發現，Qwen2.5-Math-7B基礎模型在初始階段傾向於生成大量代碼，這可能源於模型原始訓練數據的分佈特徵。</p>\n<p cms-style=\"font-L\">　　輸出長度的首次下降，是因爲強化學習訓練逐漸消除了這種代碼生成模式，轉而學會使用自然語言進行推理。</p>\n<p cms-style=\"font-L\">　　隨後，生成長度開始再次增加，此時出現了自我反思機制。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/125/w660h265/20250126/3872-3e4e62e64bb18bdb8e37e32485ed3d19.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　訓練獎勵和輸出長度</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/425/w660h565/20250126/081e-f5527685c09411ee43ab871bbe896d84.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　基準測試準確率（pass@1）和輸出長度</p>\n<p cms-style=\"font-L strong-Bold\">　　自我反思機制的湧現</p>\n<p cms-style=\"font-L\">　　在訓練到第 40 步左右時，研究者觀察到：模型開始形成自我反思模式，這正是DeepSeek-R1論文中所描述的‘aha moment’（頓悟時刻）。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/125/w660h265/20250126/d666-644a7d04485bbdd8619d7435dc45e0d3.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　<font cms-style=\"font-L strong-Bold\">第二部分：SimpleRL（基於模仿預熱的強化學習）</font></p>\n<p cms-style=\"font-L\">　　如前所述，研究者在進行強化學習之前，先進行了long CoT SFT預熱，使用了8，000個從QwQ-32B-Preview中提取的MATH示例響應作爲SFT數據集。</p>\n<p cms-style=\"font-L\">　　這種冷啓動的潛在優勢在於：模型在開始強化學習時已具備long CoT思維模式和自我反思能力，從而可能在強化學習階段實現更快更好的學習效果。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/139/w660h279/20250126/0a4e-89fa445007a02eed0c9a8cbfe1faa30f.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　與RL訓練前的模型（Qwen2.5-Math-7B-Base + 8K QwQ知識蒸餾版本）相比，Qwen2.5-7B-SimpleRL的平均性能顯著提升了6.9個百分點。</p>\n<p cms-style=\"font-L\">　　此外，Qwen2.5-7B-SimpleRL不僅持續優於Eurus-2-7B-PRIME，還在5個基準測試中的3個上超越了Qwen2.5-7B-SimpleRL-Zero。</p>\n<p cms-style=\"font-L\">　　<font cms-style=\"font-L strong-Bold\">訓練過程分析</font></p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/151/w660h291/20250126/4cdf-17b135ffe879cf9add168df8640d9894.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　訓練獎勵和輸出長度</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/250/w660h390/20250126/9561-b713bf1433579b2d1b667daae642109d.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　基準測試準確率（pass@1）和輸出長度</p>\n<p cms-style=\"font-L\">　　Qwen2.5-SimpleRL的訓練動態表現與Qwen2.5-SimpleRL-Zero相似。</p>\n<p cms-style=\"font-L\">　　有趣的是，儘管研究者先進行了long CoT SFT，但在強化學習初期仍然觀察到輸出長度減少的現象。</p>\n<p cms-style=\"font-L\">　　他們推測，這可能是因爲從QwQ提取的推理模式不適合小型策略模型，或超出了其能力範圍。</p>\n<p cms-style=\"font-L\">　　因此，模型選擇放棄這種模式，轉而自主發展新的長鏈式推理方式。</p>\n<p cms-style=\"font-L\">　　最後，研究者用達芬奇的一句話，對這項研究做了總結——</p>\n<p cms-style=\"font-L\">　　簡約，便是最終極的精緻。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/509/w437h72/20250126/a671-238615474365031ceda37624b877a894.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　完全開源復刻，HuggingFace下場了</p>\n<p cms-style=\"font-L\">　　甚至，就連全球最大開源平臺HuggingFace團隊，今天官宣復刻DeepSeek R1所有pipeline。</p>\n<p cms-style=\"font-L\">　　復刻完成後，所有的訓練數據、訓練腳本等等，將全部開源。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/127/w660h267/20250126/80d7-7da6db07182e612a067163cb281ebfd8.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　這個項目叫做Open R1，當前還在進行中。發佈到一天，星標衝破1.9k，斬獲142個fork。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/99/w660h239/20250126/0dda-4aa59e4ac6b53c5fdccd86cc20acd3dd.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　項目地址：https：//github.com/huggingface/open-r1</p>\n<p cms-style=\"font-L\">　　研究團隊以DeepSeek-R1技術報告爲指導，將整個復刻過程劃分爲三個關鍵步驟。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/617/w660h757/20250126/0564-d658f66780cc65c50ae71b1ee4a660d4.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　從斯坦福到MIT，R1成爲首選</p>\n<p cms-style=\"font-L\">　　一個副業項目，讓全世界科技大廠爲之惶恐。</p>\n<p cms-style=\"font-L\">　　DeepSeek這波成功，也成爲業界的神話，網友最新截圖顯示，這款應用已經在APP Store‘效率’應用榜單中擠進前三。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/680/w660h820/20250126/04c0-3064bc89ee124bc073465edc9d895589.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　在Hugging Face中，R1下載量直接登頂，另外3個模型也霸佔着熱榜。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/520/w660h660/20250126/9180-02024de00d2cbf86b3c21bee2816e965.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　a16z合夥人Anjney Midha稱，一夜之間，從斯坦福到MIT，DeepSeek R1已經成爲美國頂尖高校研究人員‘首選模型’。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/5/w660h145/20250126/82f3-680e7c0bab2d5ffc64dc2230eef3e2d8.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　還有研究人員表示，DeepSeek基本上取代了我用ChatGPT的需求。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/764/w660h104/20250126/eab5-67298b3ff22f295aa8ce82b2f575aca3.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　中國AI，這一次真的震撼了世界。</p>\n<p cms-style=\"font-L\">　　參考資料：</p>\n<p cms-style=\"font-L\">　　https：//x.com/junxian_he/status/1883183099787571519</p>\n<p cms-style=\"font-L\">　　https：//x.com/jiayi_pirate/status/1882839370505621655</p>\n<div></div>\n<div>\n<div><img src=\"\"/></div>\n<div>海量資訊、精準解讀，盡在新浪財經APP</div>\n</div>\n<p>責任編輯：石秀珍 SF183</p>\n</div></body></html>","source":"sina","html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>全球掀DeepSeek復現狂潮！硅谷巨頭神話崩塌，30刀見證啊哈時刻</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 12.5px; color: #7E829C; margin: 0;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n全球掀DeepSeek復現狂潮！硅谷巨頭神話崩塌，30刀見證啊哈時刻\n</h2>\n<h4 class=\"meta\">\n<p class=\"head\">\n<strong class=\"h-name small\">媒體滾動</strong><span class=\"h-time small\">2025-01-26 11:58</span>\n</p>\n</h4>\n</header>\n<article>\n<html><body><div>\n<p> 專題：DeepSeek爲何能震動全球AI圈</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/143/w660h283/20250126/1e7e-121f390fe7e5ef19b0ed5bbf7e5cef51.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　<font cms-style=\"font-L strong-Bold\">新智元報道</font></p>\n<p cms-style=\"font-L\">　　編輯：編輯部 HYZ</p>\n<p cms-style=\"font-L\">　　<font cms-style=\"font-L strong-Bold\">【新智元導讀】</font>就在剛剛，網上已經出現了一波復現DeepSeek的狂潮。UC伯克利、港科大、HuggingFace等紛紛成功復現，只用強化學習，沒有監督微調，30美元就能見證‘啊哈時刻’！全球AI大模型，或許正在進入下一分水嶺。</p>\n<p cms-style=\"font-L\">　　這些天，硅谷徹底處於中國公司帶來的大地震餘波中。</p>\n<p cms-style=\"font-L\">　　全美都在恐慌：是否全球人工智能的中心已經轉移到了中國？</p>\n<p cms-style=\"font-L\">　　就在這當口，全球復現DeepSeek的一波狂潮也來了。</p>\n<p cms-style=\"font-L\">　　誠如LeCun所言：‘這一次，正是開源對閉源的勝利！’</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/178/w660h318/20250126/1817-db17f0906a926b2180ee16078d8beb47.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　種種這些觀點和討論，讓人不禁懷疑：<a href=\"https://laohu8.com/S/SBAY\">數百億</a>美元支出，對這個行業真的必要嗎？甚至有人說，中國量化基金的一羣天才，將導致納斯達克崩盤。</p>\n<p cms-style=\"font-L\">　　從此，大模型時代很可能會進入一個分水嶺：超強性能的模型不再獨屬於算力巨頭，而是屬於每個人。</p>\n<p cms-style=\"font-L\">　　30美金，就能看到‘啊哈’時刻</p>\n<p cms-style=\"font-L\">　　來自UC伯克利博士生潘家怡和另兩位研究人員，在CountDown遊戲中復現了DeepSeek R1-Zero。</p>\n<p cms-style=\"font-L\">　　他們表示，結果相當出色！</p>\n<p cms-style=\"font-L\">　　實驗中，團隊驗證了通過強化學習RL，3B的基礎語言模型也能夠自我驗證和搜索。</p>\n<p cms-style=\"font-L\">　　更令人興奮的是，成本不到30美金（約217元），就可以親眼見證‘啊哈’時刻。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/146/w660h286/20250126/53a1-b25aa213231216155ce8525580ab2403.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　這個項目叫做TinyZero，採用了R1-Zero算法——給定一個基礎語言模型、提示和真實獎勵信號，運行強化學習。</p>\n<p cms-style=\"font-L\">　　然後，團隊將其應用在CountDown遊戲中（這是一個玩家使用基礎算術運算，將數字組合以達到目標數字的遊戲）。</p>\n<p cms-style=\"font-L\">　　模型從最初的簡單輸出開始，逐步進化出自我糾正和搜索的策略。</p>\n<p cms-style=\"font-L\">　　在以下示例中，模型提出瞭解決方案，自我驗證，並反覆糾正，直到解決問題爲止。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/255/w660h395/20250126/59d4-1db8aba34d2bcd55aa92e56980c52b50.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　在消融實驗中，研究人員運行了Qwen-2.5-Base（0.5B、1.5B、3B、7B四種參數規模）。</p>\n<p cms-style=\"font-L\">　　結果發現，0.5B模型僅僅是猜測一個解決方案然後停止。而從1.5B開始，模型學會了搜索、自我驗證和修正其解決方案，從而能夠獲得更高的分數。</p>\n<p cms-style=\"font-L\">　　他們認爲，在這個過程，基礎模型的是性能的關鍵。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/423/w660h563/20250126/0929-0f10dd1229a81caa601ca944e6cf1b50.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　他們還驗證了，額外的指令微調（SFT）並非是必要的，這也印證了R1-Zero的設計決策。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/76/w660h216/20250126/eed2-1699e020e9705281a935931fe08efed2.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　這是首個驗證LLM推理能力的實現可以純粹通過RL，無需監督微調的開源研究</p>\n<p cms-style=\"font-L\">　　基礎模型和指令模型兩者區別：</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/435/w660h575/20250126/d87a-0b6a98f9113eaadb08c5edc6d8ea578b.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　此外，他們還發現，具體的RL算法並不重要。PPO、GRPO、PRIME這些算法中，長思維鏈（Long CoT）都能夠湧現，且帶來不錯的性能表現。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/550/w660h690/20250126/cc01-920018f2430ca719f710543ec2836100.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　而且，模型在推理行爲中非常依賴於具體的任務：</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/253/w660h393/20250126/8d64-08c7802cd1c476222fc788836ad036a5.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　<a href=\"https://laohu8.com/S/AAPL\">蘋果</a>機器學習科學家Yizhe Zhang對此表示，太酷了，小到1.5B的模型，也能通過RL湧現出自我驗證的能力。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/790/w660h130/20250126/afd8-a2f2a95a98f86e8d7978f79299a47c05.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　7B模型復刻，結果令人驚訝</p>\n<p cms-style=\"font-L\">　　港科大助理教授何俊賢的團隊（共同一作黃裕振、Weihao Zeng），只用了8K個樣本，就在7B模型上覆刻出了DeepSeek-R1-Zero和DeepSeek-R1的訓練。</p>\n<p cms-style=\"font-L\">　　結果令人驚喜——模型在複雜的數學推理上取得了十分強勁結果。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/1/w660h141/20250126/c45b-bf3d14780648741268bcd5ff8cb559c4.jpg\"/><span></span></div>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/161/w660h301/20250126/8231-3325b598b31002938b0458c5b419144a.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　項目地址：https：//github.com/hkust-nlp/simpleRL-reason</p>\n<p cms-style=\"font-L\">　　他們以Qwen2.5-Math-7B（基礎模型）爲起點，直接對其進行強化學習。</p>\n<p cms-style=\"font-L\">　　整個過程中，沒有進行監督微調（SFT），也沒有使用獎勵模型。</p>\n<p cms-style=\"font-L\">　　最終，模型在AIME基準上實現了33.3%的準確率，在AMC上爲62.5%，在MATH上爲77.2%。</p>\n<p cms-style=\"font-L\">　　這一表現不僅超越了Qwen2.5-Math-7B-Instruct，並且還可以和使用超過50倍數據量和更復雜組件的PRIME和rStar-MATH相媲美！</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/235/w660h375/20250126/56e6-8b3dab75b967691a7f654521c7ef3ab9.jpg\"/><span></span></div>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/198/w660h338/20250126/31e1-444149e6eb72f645f7b1383ef5301743.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　其中，Qwen2.5-7B-SimpleRL-Zero是在Qwen2.5-Math-7B基礎模型上僅使用純PPO方法訓練的，僅採用了MATH數據集中的8K樣本。</p>\n<p cms-style=\"font-L\">　　Qwen2.5-7B-SimpleRL則首先通過Long CoT監督微調（SFT）作爲冷啓動，然後再進行強化學習。</p>\n<p cms-style=\"font-L\">　　在這兩種方法中，團隊都只使用了相同的8K MATH樣本，僅此而已。</p>\n<p cms-style=\"font-L\">　　大概在第44步的時候，‘啊哈時刻’出現了！模型的響應中，出現了自我反思。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/128/w660h268/20250126/428a-22aabfe13ee5075576f6742a88570048.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　並且，在這個過程中，模型還顯現了更長的CoT推理能力和自我反思能力。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/232/w660h372/20250126/8cac-0ee8e5b4624e062841768b70cf2624ac.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　在博客中，研究者詳細剖析了實驗設置，以及在這個強化學習訓練過程中所觀察到的現象，例如長鏈式思考（CoT）和自我反思機制的自發形成。</p>\n<p cms-style=\"font-L\">　　與DeepSeek R1類似，研究者的強化學習方案極其簡單，沒有使用獎勵模型或MCTS（蒙特卡洛樹搜索）類技術。</p>\n<p cms-style=\"font-L\">　　他們使用的是PPO算法，並採用基於規則的獎勵函數，根據生成輸出的格式和正確性分配獎勵：</p>\n<p cms-style=\"font-L\">　　該實現基於OpenRLHF。初步試驗表明，這個獎勵函數有助於策略模型快速收斂，產生符合期望格式的輸出。</p>\n<p cms-style=\"font-L\">　　<font cms-style=\"font-L strong-Bold\">第一部分：SimpleRL-Zero（從頭開始的強化學習）</font></p>\n<p cms-style=\"font-L\">　　接下來，研究者爲我們分享了訓練過程動態分析和一些有趣的湧現模式。</p>\n<p cms-style=\"font-L\">　　<font cms-style=\"font-L strong-Bold\">訓練過程動態分析</font></p>\n<p cms-style=\"font-L\">　　如下所示，所有基準測試的準確率在訓練過程中都在穩步提高，而輸出長度則呈現先減少後逐漸增加的趨勢。</p>\n<p cms-style=\"font-L\">　　經過進一步調查，研究者發現，Qwen2.5-Math-7B基礎模型在初始階段傾向於生成大量代碼，這可能源於模型原始訓練數據的分佈特徵。</p>\n<p cms-style=\"font-L\">　　輸出長度的首次下降，是因爲強化學習訓練逐漸消除了這種代碼生成模式，轉而學會使用自然語言進行推理。</p>\n<p cms-style=\"font-L\">　　隨後，生成長度開始再次增加，此時出現了自我反思機制。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/125/w660h265/20250126/3872-3e4e62e64bb18bdb8e37e32485ed3d19.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　訓練獎勵和輸出長度</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/425/w660h565/20250126/081e-f5527685c09411ee43ab871bbe896d84.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　基準測試準確率（pass@1）和輸出長度</p>\n<p cms-style=\"font-L strong-Bold\">　　自我反思機制的湧現</p>\n<p cms-style=\"font-L\">　　在訓練到第 40 步左右時，研究者觀察到：模型開始形成自我反思模式，這正是DeepSeek-R1論文中所描述的‘aha moment’（頓悟時刻）。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/125/w660h265/20250126/d666-644a7d04485bbdd8619d7435dc45e0d3.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　<font cms-style=\"font-L strong-Bold\">第二部分：SimpleRL（基於模仿預熱的強化學習）</font></p>\n<p cms-style=\"font-L\">　　如前所述，研究者在進行強化學習之前，先進行了long CoT SFT預熱，使用了8，000個從QwQ-32B-Preview中提取的MATH示例響應作爲SFT數據集。</p>\n<p cms-style=\"font-L\">　　這種冷啓動的潛在優勢在於：模型在開始強化學習時已具備long CoT思維模式和自我反思能力，從而可能在強化學習階段實現更快更好的學習效果。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/139/w660h279/20250126/0a4e-89fa445007a02eed0c9a8cbfe1faa30f.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　與RL訓練前的模型（Qwen2.5-Math-7B-Base + 8K QwQ知識蒸餾版本）相比，Qwen2.5-7B-SimpleRL的平均性能顯著提升了6.9個百分點。</p>\n<p cms-style=\"font-L\">　　此外，Qwen2.5-7B-SimpleRL不僅持續優於Eurus-2-7B-PRIME，還在5個基準測試中的3個上超越了Qwen2.5-7B-SimpleRL-Zero。</p>\n<p cms-style=\"font-L\">　　<font cms-style=\"font-L strong-Bold\">訓練過程分析</font></p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/151/w660h291/20250126/4cdf-17b135ffe879cf9add168df8640d9894.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　訓練獎勵和輸出長度</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/250/w660h390/20250126/9561-b713bf1433579b2d1b667daae642109d.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　基準測試準確率（pass@1）和輸出長度</p>\n<p cms-style=\"font-L\">　　Qwen2.5-SimpleRL的訓練動態表現與Qwen2.5-SimpleRL-Zero相似。</p>\n<p cms-style=\"font-L\">　　有趣的是，儘管研究者先進行了long CoT SFT，但在強化學習初期仍然觀察到輸出長度減少的現象。</p>\n<p cms-style=\"font-L\">　　他們推測，這可能是因爲從QwQ提取的推理模式不適合小型策略模型，或超出了其能力範圍。</p>\n<p cms-style=\"font-L\">　　因此，模型選擇放棄這種模式，轉而自主發展新的長鏈式推理方式。</p>\n<p cms-style=\"font-L\">　　最後，研究者用達芬奇的一句話，對這項研究做了總結——</p>\n<p cms-style=\"font-L\">　　簡約，便是最終極的精緻。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/509/w437h72/20250126/a671-238615474365031ceda37624b877a894.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　完全開源復刻，HuggingFace下場了</p>\n<p cms-style=\"font-L\">　　甚至，就連全球最大開源平臺HuggingFace團隊，今天官宣復刻DeepSeek R1所有pipeline。</p>\n<p cms-style=\"font-L\">　　復刻完成後，所有的訓練數據、訓練腳本等等，將全部開源。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/127/w660h267/20250126/80d7-7da6db07182e612a067163cb281ebfd8.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　這個項目叫做Open R1，當前還在進行中。發佈到一天，星標衝破1.9k，斬獲142個fork。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/99/w660h239/20250126/0dda-4aa59e4ac6b53c5fdccd86cc20acd3dd.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　項目地址：https：//github.com/huggingface/open-r1</p>\n<p cms-style=\"font-L\">　　研究團隊以DeepSeek-R1技術報告爲指導，將整個復刻過程劃分爲三個關鍵步驟。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/617/w660h757/20250126/0564-d658f66780cc65c50ae71b1ee4a660d4.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　從斯坦福到MIT，R1成爲首選</p>\n<p cms-style=\"font-L\">　　一個副業項目，讓全世界科技大廠爲之惶恐。</p>\n<p cms-style=\"font-L\">　　DeepSeek這波成功，也成爲業界的神話，網友最新截圖顯示，這款應用已經在APP Store‘效率’應用榜單中擠進前三。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/680/w660h820/20250126/04c0-3064bc89ee124bc073465edc9d895589.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　在Hugging Face中，R1下載量直接登頂，另外3個模型也霸佔着熱榜。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/520/w660h660/20250126/9180-02024de00d2cbf86b3c21bee2816e965.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　a16z合夥人Anjney Midha稱，一夜之間，從斯坦福到MIT，DeepSeek R1已經成爲美國頂尖高校研究人員‘首選模型’。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/5/w660h145/20250126/82f3-680e7c0bab2d5ffc64dc2230eef3e2d8.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　還有研究人員表示，DeepSeek基本上取代了我用ChatGPT的需求。</p>\n<div><img src=\"http://n.sinaimg.cn/spider20250126/764/w660h104/20250126/eab5-67298b3ff22f295aa8ce82b2f575aca3.jpg\"/><span></span></div>\n<p cms-style=\"font-L\">　　中國AI，這一次真的震撼了世界。</p>\n<p cms-style=\"font-L\">　　參考資料：</p>\n<p cms-style=\"font-L\">　　https：//x.com/junxian_he/status/1883183099787571519</p>\n<p cms-style=\"font-L\">　　https：//x.com/jiayi_pirate/status/1882839370505621655</p>\n<div></div>\n<div>\n<div><img src=\"\"/></div>\n<div>海量資訊、精準解讀，盡在新浪財經APP</div>\n</div>\n<p>責任編輯：石秀珍 SF183</p>\n</div></body></html>\n<div class=\"bt-text\">\n\n\n<p> 來源：<a href=\"https://finance.sina.com.cn/roll/2025-01-26/doc-inehhksh0101273.shtml\">媒體滾動</a></p>\n<p>為提升您的閱讀體驗，我們對本頁面進行了排版優化</p>\n\n\n</div>\n</article>\n</div>\n</body>\n</html>\n","isBrief":false,"type":0,"news_type":1,"symbol":null,"symbol_name":null,"start_time":0,"source_url":"https://finance.sina.com.cn/roll/2025-01-26/doc-inehhksh0101273.shtml","article_id":"2506380730","we_media_id":null,"thumbnails":[],"rights":null,"url":"https://stock-news.laohu8.com/highlight/detail?id=2506380730","pubTimestamp":1737863880,"columns":[],"sourceInfo":{"source_id":"sina","name":"sina"},"weMediaInfo":null,"summary":"　　就在剛剛，網上已經出現了一波復現DeepSeek的狂潮。UC伯克利、港科大、HuggingFace等紛紛成功復現，只用強化學習，沒有監督微調，30美元就能見證‘啊哈時刻’！全球AI大模型，或許正在進入下一分水嶺。　　這些天，硅谷徹底處於中國公司帶來的大地震餘波中。　　來自UC伯克利博士生潘家怡和另兩位研究人員，在CountDown遊戲中復現了DeepSeek R1-Zero。　　更令人興奮的是，成本不到30美金，就可以親眼見證‘啊哈’時刻。","collect":0,"end_time":0,"defaultTopTitle":"sina.com.cn","property":[],"viewcount":null,"language":"zh","relate_stocks":{},"translate_title":"The global DeepSeek reappearance frenzy! The myth of Silicon Valley giants collapses, 30 knives witness the aha moment","themeId":null,"isJumpTheme":false,"ttsUrl":null,"symbols_score_info":{"SFT":1},"content_text":"專題：DeepSeek為何能震動全球AI圈\n\n　　新智元報道\n　　編輯：編輯部 HYZ\n　　【新智元導讀】就在剛剛，網上已經出現了一波復現DeepSeek的狂潮。UC伯克利、港科大、HuggingFace等紛紛成功復現，只用強化學習，沒有監督微調，30美元就能見證‘啊哈時刻’！全球AI大模型，或許正在進入下一分水嶺。\n　　這些天，硅谷徹底處於中國公司帶來的大地震餘波中。\n　　全美都在恐慌：是否全球人工智能的中心已經轉移到了中國？\n　　就在這當口，全球復現DeepSeek的一波狂潮也來了。\n　　誠如LeCun所言：‘這一次，正是開源對閉源的勝利！’\n\n　　種種這些觀點和討論，讓人不禁懷疑：數百億美元支出，對這個行業真的必要嗎？甚至有人説，中國量化基金的一羣天才，將導致納斯達克崩盤。\n　　從此，大模型時代很可能會進入一個分水嶺：超強性能的模型不再獨屬於算力巨頭，而是屬於每個人。\n　　30美金，就能看到‘啊哈’時刻\n　　來自UC伯克利博士生潘家怡和另兩位研究人員，在CountDown遊戲中復現了DeepSeek R1-Zero。\n　　他們表示，結果相當出色！\n　　實驗中，團隊驗證了通過強化學習RL，3B的基礎語言模型也能夠自我驗證和搜索。\n　　更令人興奮的是，成本不到30美金（約217元），就可以親眼見證‘啊哈’時刻。\n\n　　這個項目叫做TinyZero，採用了R1-Zero算法——給定一個基礎語言模型、提示和真實獎勵信號，運行強化學習。\n　　然後，團隊將其應用在CountDown遊戲中（這是一個玩家使用基礎算術運算，將數字組合以達到目標數字的遊戲）。\n　　模型從最初的簡單輸出開始，逐步進化出自我糾正和搜索的策略。\n　　在以下示例中，模型提出瞭解決方案，自我驗證，並反覆糾正，直到解決問題為止。\n\n　　在消融實驗中，研究人員運行了Qwen-2.5-Base（0.5B、1.5B、3B、7B四種參數規模）。\n　　結果發現，0.5B模型僅僅是猜測一個解決方案然後停止。而從1.5B開始，模型學會了搜索、自我驗證和修正其解決方案，從而能夠獲得更高的分數。\n　　他們認為，在這個過程，基礎模型的是性能的關鍵。\n\n　　他們還驗證了，額外的指令微調（SFT）並非是必要的，這也印證了R1-Zero的設計決策。\n\n　　這是首個驗證LLM推理能力的實現可以純粹通過RL，無需監督微調的開源研究\n　　基礎模型和指令模型兩者區別：\n\n　　此外，他們還發現，具體的RL算法並不重要。PPO、GRPO、PRIME這些算法中，長思維鏈（Long CoT）都能夠湧現，且帶來不錯的性能表現。\n\n　　而且，模型在推理行為中非常依賴於具體的任務：\n\n　　蘋果機器學習科學家Yizhe Zhang對此表示，太酷了，小到1.5B的模型，也能通過RL湧現出自我驗證的能力。\n\n　　7B模型復刻，結果令人驚訝\n　　港科大助理教授何俊賢的團隊（共同一作黃裕振、Weihao Zeng），只用了8K個樣本，就在7B模型上覆刻出了DeepSeek-R1-Zero和DeepSeek-R1的訓練。\n　　結果令人驚喜——模型在複雜的數學推理上取得了十分強勁結果。\n\n\n　　項目地址：https：//github.com/hkust-nlp/simpleRL-reason\n　　他們以Qwen2.5-Math-7B（基礎模型）為起點，直接對其進行強化學習。\n　　整個過程中，沒有進行監督微調（SFT），也沒有使用獎勵模型。\n　　最終，模型在AIME基準上實現了33.3%的準確率，在AMC上為62.5%，在MATH上為77.2%。\n　　這一表現不僅超越了Qwen2.5-Math-7B-Instruct，並且還可以和使用超過50倍數據量和更復雜組件的PRIME和rStar-MATH相媲美！\n\n\n　　其中，Qwen2.5-7B-SimpleRL-Zero是在Qwen2.5-Math-7B基礎模型上僅使用純PPO方法訓練的，僅採用了MATH數據集中的8K樣本。\n　　Qwen2.5-7B-SimpleRL則首先通過Long CoT監督微調（SFT）作為冷啓動，然後再進行強化學習。\n　　在這兩種方法中，團隊都只使用了相同的8K MATH樣本，僅此而已。\n　　大概在第44步的時候，‘啊哈時刻’出現了！模型的響應中，出現了自我反思。\n\n　　並且，在這個過程中，模型還顯現了更長的CoT推理能力和自我反思能力。\n\n　　在博客中，研究者詳細剖析了實驗設置，以及在這個強化學習訓練過程中所觀察到的現象，例如長鏈式思考（CoT）和自我反思機制的自發形成。\n　　與DeepSeek R1類似，研究者的強化學習方案極其簡單，沒有使用獎勵模型或MCTS（蒙特卡洛樹搜索）類技術。\n　　他們使用的是PPO算法，並採用基於規則的獎勵函數，根據生成輸出的格式和正確性分配獎勵：\n　　該實現基於OpenRLHF。初步試驗表明，這個獎勵函數有助於策略模型快速收斂，產生符合期望格式的輸出。\n　　第一部分：SimpleRL-Zero（從頭開始的強化學習）\n　　接下來，研究者為我們分享了訓練過程動態分析和一些有趣的湧現模式。\n　　訓練過程動態分析\n　　如下所示，所有基準測試的準確率在訓練過程中都在穩步提高，而輸出長度則呈現先減少後逐漸增加的趨勢。\n　　經過進一步調查，研究者發現，Qwen2.5-Math-7B基礎模型在初始階段傾向於生成大量代碼，這可能源於模型原始訓練數據的分佈特徵。\n　　輸出長度的首次下降，是因為強化學習訓練逐漸消除了這種代碼生成模式，轉而學會使用自然語言進行推理。\n　　隨後，生成長度開始再次增加，此時出現了自我反思機制。\n\n　　訓練獎勵和輸出長度\n\n　　基準測試準確率（pass@1）和輸出長度\n　　自我反思機制的湧現\n　　在訓練到第 40 步左右時，研究者觀察到：模型開始形成自我反思模式，這正是DeepSeek-R1論文中所描述的‘aha moment’（頓悟時刻）。\n\n　　第二部分：SimpleRL（基於模仿預熱的強化學習）\n　　如前所述，研究者在進行強化學習之前，先進行了long CoT SFT預熱，使用了8，000個從QwQ-32B-Preview中提取的MATH示例響應作為SFT數據集。\n　　這種冷啓動的潛在優勢在於：模型在開始強化學習時已具備long CoT思維模式和自我反思能力，從而可能在強化學習階段實現更快更好的學習效果。\n\n　　與RL訓練前的模型（Qwen2.5-Math-7B-Base + 8K QwQ知識蒸餾版本）相比，Qwen2.5-7B-SimpleRL的平均性能顯著提升了6.9個百分點。\n　　此外，Qwen2.5-7B-SimpleRL不僅持續優於Eurus-2-7B-PRIME，還在5個基準測試中的3個上超越了Qwen2.5-7B-SimpleRL-Zero。\n　　訓練過程分析\n\n　　訓練獎勵和輸出長度\n\n　　基準測試準確率（pass@1）和輸出長度\n　　Qwen2.5-SimpleRL的訓練動態表現與Qwen2.5-SimpleRL-Zero相似。\n　　有趣的是，儘管研究者先進行了long CoT SFT，但在強化學習初期仍然觀察到輸出長度減少的現象。\n　　他們推測，這可能是因為從QwQ提取的推理模式不適合小型策略模型，或超出了其能力範圍。\n　　因此，模型選擇放棄這種模式，轉而自主發展新的長鏈式推理方式。\n　　最後，研究者用達芬奇的一句話，對這項研究做了總結——\n　　簡約，便是最終極的精緻。\n\n　　完全開源復刻，HuggingFace下場了\n　　甚至，就連全球最大開源平台HuggingFace團隊，今天官宣復刻DeepSeek R1所有pipeline。\n　　復刻完成後，所有的訓練數據、訓練腳本等等，將全部開源。\n\n　　這個項目叫做Open R1，當前還在進行中。發佈到一天，星標衝破1.9k，斬獲142個fork。\n\n　　項目地址：https：//github.com/huggingface/open-r1\n　　研究團隊以DeepSeek-R1技術報告為指導，將整個復刻過程劃分為三個關鍵步驟。\n\n　　從斯坦福到MIT，R1成為首選\n　　一個副業項目，讓全世界科技大廠為之惶恐。\n　　DeepSeek這波成功，也成為業界的神話，網友最新截圖顯示，這款應用已經在APP Store‘效率’應用榜單中擠進前三。\n\n　　在Hugging Face中，R1下載量直接登頂，另外3個模型也霸佔着熱榜。\n\n　　a16z合夥人Anjney Midha稱，一夜之間，從斯坦福到MIT，DeepSeek R1已經成為美國頂尖高校研究人員‘首選模型’。\n\n　　還有研究人員表示，DeepSeek基本上取代了我用ChatGPT的需求。\n\n　　中國AI，這一次真的震撼了世界。\n　　參考資料：\n　　https：//x.com/junxian_he/status/1883183099787571519\n　　https：//x.com/jiayi_pirate/status/1882839370505621655\n\n\n\n海量資訊、精準解讀，盡在新浪財經APP\n\n責任編輯：石秀珍 SF183","kind":"news","is_publish_news":true,"is_publish_highlight":false,"is_publish_live":false,"is_publish_wemedia":null,"editions":null,"column":"","sentiment":"-1","news_tag":"","news_rank":0,"symbols":[],"gpt_button":1,"code":"91000000","status":"200"}}}