昨天,阿里巴巴開源了一種創新大模型搜索引擎——ZeroSearch。
ZeroSearch是一種無需與真實搜索引擎交互即可激勵大模型搜索能力的強化學習框架。主要利用了大模型在大規模預訓練過程中積累的豐富知識,將其轉化爲一個檢索模塊,能夠根據搜索查詢生成相關內容。同時,還可以動態控制生成內容的質量,這是傳統搜索引擎所不具備的特殊功能。
研究人員在NQ、TriviaQA、PopQA、HotpotQA等7大問答數據集上進行了綜合評測。結果顯示,一個70億參數的監督微調模型使用ZeroSearch後,其搜索能力達到了33.06;140億參數的模型則達到了33.97,超過了谷歌搜索的32.47。
在成本方面,研究人員通過SerpAPI使用谷歌搜索進行約64,000次搜索查詢的訓練,成本約爲586.70美元;而在四個A100GPU上使用140億參數的大模型進行模擬時,成本僅爲70.80美元,成本降低了80%以上。
目前,爲了解決大模型幻覺以及擴大外部知識範圍,檢索增強生成(RAG)已成爲標配。不過,早期的RAG主要採用基於提示的策略,通過引導大模型進行查詢生成、查詢分解和多輪信息檢索來整合外部知識,但這些方法對提示要求較高,且對模型的推理能力依賴較大。
還有研究嘗試通過監督微調、蒙特卡洛樹搜索等方法來增強搜索能力,雖然取得了一定成果,但算力消耗很大,在實際部署中面臨很多難題。
隨着DeepSeek-R1、o1等模型的出現,強化學習成爲了一項改變模型邏輯推理能力的關鍵技術。這些模型完全依賴於獎勵驅動的學習,而無需明確的逐步監督。
因此,有不少研究將強化學習應用在大模型搜索中。例如,Search-R1通過強化學習自主生成多個搜索查詢,而ReSearch則通過強化學習教授模型通過搜索進行推理,無需對中間推理步驟進行監督。但這些方法需要與谷歌等商業搜索引擎搭配使用才能達到最佳效果,成本方面非常高。
ZeroSearch則通過強化學習激勵大模型的搜索能力,同時避免了與真實搜索引擎交互帶來的高昂成本和不可控性。
ZeroSearch通過輕量級監督微調將大模型轉化爲一個檢索模塊。這一過程利用了大模型在大規模預訓練中積累的豐富知識,使其能夠根據給定的查詢生成相關或噪聲文檔。通過調整提示中的關鍵詞,模型可以靈活地控制生成文檔的質量,從而爲後續的訓練提供多樣化的檢索場景。
這種能力是通過收集與真實搜索引擎交互的軌跡數據,並對這些數據進行標註和微調來實現的。主要是讓大模型與真實搜索引擎展開多輪交互,直至得出最終答案。
在此過程中,詳細記錄下所有交互軌跡,這些軌跡涵蓋了從模型發起查詢,到搜索引擎返回文檔,以及模型據此生成最終答案的全過程。接着,對這些交互軌跡進行細緻標註,將能產生正確答案的交互軌跡標記爲正樣本,意味着其中檢索到的文檔發揮了積極作用;而導致錯誤答案的交互軌跡則歸爲負樣本,表明對應的檢索文檔屬於干擾信息。
從正樣本和負樣本交互軌跡中精準提取查詢-文檔對,以此爲基礎對大模型實施輕量級監督微調。微調時,研究人員巧妙調整提示中的少量詞彙,例如,加入“有用信息”“噪聲信息”等,引導大模型學習生成不同質量的文檔。同時,將輸入問題及其對應的答案融入提示內容,拓寬大模型的知識邊界。
ZeroSearch還通過引入“課程學習機制”,用於在訓練過程中逐步調整生成文檔的質量。其核心思想是,隨着訓練的進行,逐漸增加任務的難度,使模型從簡單的檢索場景開始,逐步適應更具挑戰性的環境。
通過一個概率函數動態調整生成噪聲文檔的可能性。在訓練初期,模型主要接觸高質量的文檔,以便快速學習基本的輸出格式和任務要求。隨着訓練的深入,模型逐漸暴露於更多噪聲文檔,這迫使模型不斷提升其推理能力和魯棒性,以應對更具挑戰性的檢索任務。
在強化學習的框架下,ZeroSearch採用了多種算法來優化模型的搜索策略。這些算法包括近端策略優化、組相對策略優化等,通過最大化策略模型的期望獎勵來訓練模型,同時考慮參考模型和獎勵函數。
獎勵函數的設計專注於答案的準確性,採用基於F1分數的獎勵機制,以平衡精確度和召回率。此外,爲了提高訓練的穩定性,ZeroSearch還引入了損失掩蔽機制,確保梯度僅針對模型自身的輸出進行計算,從而避免了由於外部生成的文檔標記引入的噪聲。
ZeroSearch的訓練模板是一個多輪交互模板,明確區分了模型的推理、搜索和回答階段。在推理階段,模型在其內部進行思考,並在<think>...</think>標籤內闡述其推理過程。如果模型認爲需要額外的信息,它會在<search>...</search>標籤內發出搜索查詢。檢索到的文檔由模擬搜索引擎生成,並在<information>...</information>標籤內返回給模型。
最後,大模型在<answer>...</answer>標籤內提供最終答案。這種結構化的模板不僅提高了模型的透明度,還增強了其在實際應用中的可靠性。
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。