昨天,阿里巴巴开源了一种创新大模型搜索引擎——ZeroSearch。
ZeroSearch是一种无需与真实搜索引擎交互即可激励大模型搜索能力的强化学习框架。主要利用了大模型在大规模预训练过程中积累的丰富知识,将其转化为一个检索模块,能够根据搜索查询生成相关内容。同时,还可以动态控制生成内容的质量,这是传统搜索引擎所不具备的特殊功能。
研究人员在NQ、TriviaQA、PopQA、HotpotQA等7大问答数据集上进行了综合评测。结果显示,一个70亿参数的监督微调模型使用ZeroSearch后,其搜索能力达到了33.06;140亿参数的模型则达到了33.97,超过了谷歌搜索的32.47。
在成本方面,研究人员通过SerpAPI使用谷歌搜索进行约64,000次搜索查询的训练,成本约为586.70美元;而在四个A100GPU上使用140亿参数的大模型进行模拟时,成本仅为70.80美元,成本降低了80%以上。
目前,为了解决大模型幻觉以及扩大外部知识范围,检索增强生成(RAG)已成为标配。不过,早期的RAG主要采用基于提示的策略,通过引导大模型进行查询生成、查询分解和多轮信息检索来整合外部知识,但这些方法对提示要求较高,且对模型的推理能力依赖较大。
还有研究尝试通过监督微调、蒙特卡洛树搜索等方法来增强搜索能力,虽然取得了一定成果,但算力消耗很大,在实际部署中面临很多难题。
随着DeepSeek-R1、o1等模型的出现,强化学习成为了一项改变模型逻辑推理能力的关键技术。这些模型完全依赖于奖励驱动的学习,而无需明确的逐步监督。
因此,有不少研究将强化学习应用在大模型搜索中。例如,Search-R1通过强化学习自主生成多个搜索查询,而ReSearch则通过强化学习教授模型通过搜索进行推理,无需对中间推理步骤进行监督。但这些方法需要与谷歌等商业搜索引擎搭配使用才能达到最佳效果,成本方面非常高。
ZeroSearch则通过强化学习激励大模型的搜索能力,同时避免了与真实搜索引擎交互带来的高昂成本和不可控性。
ZeroSearch通过轻量级监督微调将大模型转化为一个检索模块。这一过程利用了大模型在大规模预训练中积累的丰富知识,使其能够根据给定的查询生成相关或噪声文档。通过调整提示中的关键词,模型可以灵活地控制生成文档的质量,从而为后续的训练提供多样化的检索场景。
这种能力是通过收集与真实搜索引擎交互的轨迹数据,并对这些数据进行标注和微调来实现的。主要是让大模型与真实搜索引擎展开多轮交互,直至得出最终答案。
在此过程中,详细记录下所有交互轨迹,这些轨迹涵盖了从模型发起查询,到搜索引擎返回文档,以及模型据此生成最终答案的全过程。接着,对这些交互轨迹进行细致标注,将能产生正确答案的交互轨迹标记为正样本,意味着其中检索到的文档发挥了积极作用;而导致错误答案的交互轨迹则归为负样本,表明对应的检索文档属于干扰信息。
从正样本和负样本交互轨迹中精准提取查询-文档对,以此为基础对大模型实施轻量级监督微调。微调时,研究人员巧妙调整提示中的少量词汇,例如,加入“有用信息”“噪声信息”等,引导大模型学习生成不同质量的文档。同时,将输入问题及其对应的答案融入提示内容,拓宽大模型的知识边界。
ZeroSearch还通过引入“课程学习机制”,用于在训练过程中逐步调整生成文档的质量。其核心思想是,随着训练的进行,逐渐增加任务的难度,使模型从简单的检索场景开始,逐步适应更具挑战性的环境。
通过一个概率函数动态调整生成噪声文档的可能性。在训练初期,模型主要接触高质量的文档,以便快速学习基本的输出格式和任务要求。随着训练的深入,模型逐渐暴露于更多噪声文档,这迫使模型不断提升其推理能力和鲁棒性,以应对更具挑战性的检索任务。
在强化学习的框架下,ZeroSearch采用了多种算法来优化模型的搜索策略。这些算法包括近端策略优化、组相对策略优化等,通过最大化策略模型的期望奖励来训练模型,同时考虑参考模型和奖励函数。
奖励函数的设计专注于答案的准确性,采用基于F1分数的奖励机制,以平衡精确度和召回率。此外,为了提高训练的稳定性,ZeroSearch还引入了损失掩蔽机制,确保梯度仅针对模型自身的输出进行计算,从而避免了由于外部生成的文档标记引入的噪声。
ZeroSearch的训练模板是一个多轮交互模板,明确区分了模型的推理、搜索和回答阶段。在推理阶段,模型在其内部进行思考,并在<think>...</think>标签内阐述其推理过程。如果模型认为需要额外的信息,它会在<search>...</search>标签内发出搜索查询。检索到的文档由模拟搜索引擎生成,并在<information>...</information>标签内返回给模型。
最后,大模型在<answer>...</answer>标签内提供最终答案。这种结构化的模板不仅提高了模型的透明度,还增强了其在实际应用中的可靠性。
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.