DPO与GRPO谁更胜一筹?港中文、北大等发布首个系统性对比研究

市场资讯
Jun 19

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

近年来,强化学习 (RL) 在提升大型语言模型 (LLM) 的链式思考 (CoT) 推理能力方面展现出巨大潜力,其中直接偏好优化 (DPO) 和组相对策略优化 (GRPO) 是两大主流算法。

如今,这股 RL 的浪潮也涌向了图像生成领域。当我们将自回归图像生成也视为一种序列化的 CoT 推理过程时,一个核心问题浮出水面:DPO 和GRPO在这个新战场上表现如何?它们各自的优势、挑战以及最佳实践又是什么?

近日,一篇来自香港中文大学、北京大学及上海人工智能实验室的最新研究给出了答案。该研究首次对 GRPO 和 DPO 算法在自回归图像生成中的应用进行了全面深入的比较,不仅评估了它们在域内(in-domain)和域外(out-of-domain)的性能,还细致探究了不同奖励模型及扩展策略对其能力的影响。

与 LLM 的 CoT 推理不同,图像生成的 CoT 面临着独特的挑战,例如确保文本 - 图像一致性、提升图像美学质量以及设计复杂的奖励模型(而非简单的基于规则的奖励)。现有工作虽然已将 RL 引入该领域,但往往缺乏对这些领域特定挑战以及不同 RL 策略特性的深入分析。

该团队的这项新研究填补了这一空白,为我们揭示了 DPO 和 GRPO 在图像生成领域的“相爱相杀”和“各自为王”。

图 1: GRPO 与 DPO 在自回归图像生成中的研究总览,涵盖了域内域外性能对比、不同奖励模型的影响以及扩展策略的效果。

研究核心发现概览

研究团队以最新的自回归图像生成模型Janus-Pro为基线,在 T2I-CompBench (域内、长文本复杂场景) 和GenEval(域外、短文本模板化) 数据集上进行了细致评估。核心发现可归纳为三大方面:

1. 域内性能 vs. 域外泛化:DPO 与 GRPO 各擅胜场

2. 奖励模型的影响:DPO 更敏感,优质奖励模型提升 RL 泛化

3. 有效扩展策略的探索:因材施教,DPO 与 GRPO 策略迥异

研究团队系统探索了三种主流扩展策略:扩展每个提示生成的样本图像数量、扩展域内训练数据的多样性和体量,以及采用迭代训练方法。

研究细节与洞察

研究团队首先明确了任务设定:自回归图像生成模型(如 LlamaGen、Show-o、Janus-Pro)通过将图像转换为离散 token 序列进行预测,其过程与 LLM 的文本生成类似,因此可以无缝集成 DPO 和 GRPO 的损失机制。

在DPO 与 GRPO 的对比中,研究者确保了两者在计算成本上的可比性。例如,DPO 中每个 prompt 生成的图像数量与 GRPO 中的组大小对齐,并使用相同的奖励模型。

结果清晰地显示,DPO 凭借其对预收集静态数据的有效利用,在域内场景(如 T2I-CompBench 的复杂长描述)中表现更佳。而 GRPO 通过迭代优化策略和在线采样,更能适应复杂任务分布,从而在域外场景(如 GenEval 的模板化短描述)中展现出更强的泛化性。

图 2: 域内与域外性能对比的可视化结果。

在奖励模型影响的分析中,研究团队考察了三类奖励模型:基于人类偏好的模型 (HPS, ImageReward)、视觉问答模型 (UnifiedReward, Ft. ORM) 和基于度量的奖励模型。

一个有趣的发现是,奖励模型自身的泛化能力(通过 best-of-N 策略在 GenEval 上评估得到)与通过 RL 算法(DPO 或 GRPO)训练后模型的泛化能力排序高度吻合(Unified Reward > Image Reward > HPS Reward)。这表明,提升奖励模型本身的泛化性是提升 RL 泛化性的一个关键途径。

图 3: 不同奖励模型影响的可视化结果。

在扩展策略的探索上,研究团队针对 GRPO 和 DPO 的特性提出了不同的优化路径。例如,对于 GRPO,增加每轮采样的图像数量(group size)比增加训练数据量或迭代次数,能更经济地提升域内性能。

而对于 DPO,迭代训练(如 DPO-Iter)虽然能显著提升域内分数,但过早地在泛化能力上达到瓶颈甚至衰退,这可能源于对训练偏好数据的过拟合。另一方面,扩展域内训练数据的多样性和数量,则能帮助 DPO 克服小规模偏好数据集带来的局限性,从而同时提升域内和域外表现。

图 4: 扩展策略影响的可视化结果。

总结与展望

这项研究为我们提供了一幅关于 DPO 和 GRPO 在自回归图像生成领域应用的清晰图景。它不仅揭示了 DPO 在域内任务上的优势和 GRPO 在域外泛化上的长处,还强调了高质量、高泛化性奖励模型的重要性,并为两种 RL 范式提供了针对性的扩展策略建议。

这些发现为未来开发更高效的 RL 算法,以在自回归图像生成领域实现更鲁棒的 CoT 推理,铺平了新的道路。研究者希望这项工作能启发更多后续研究,共同推动 AI 在视觉创造力上的边界。

海量资讯、精准解读,尽在新浪财经APP

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10