直接偏好优化（DPO）：用更简单的方法让 AI 更符合人类偏好

是乐谷

于 2025-05-28 14:11:33 发布

阅读量729

点赞数 16

文章标签：人工智能 chatgpt python 大数据

版权

直接偏好优化（DPO）：用更简单的方法让 AI 更符合人类偏好

发布时间：2025年4月17日｜作者：Ivan Provilkov、Zain Hasan、Max Ryabinin

我们非常高兴宣布，Together 的微调平台现在支持 Direct Preference Optimization（DPO）技术！这是一种让语言模型（如 ChatGPT）更贴近人类喜好的方法，让 AI 回答更准确、有帮助，也更有礼貌。下面是对这个技术的简单介绍。

DPO 是一种用人类偏好来优化模型的方式，它比传统的 RLHF（从人类反馈中强化学习）简单很多。

你只需要三样东西：

DPO 会训练模型更倾向于生成好答案，而避免生成差答案。

假设用户问：“罗马帝国是怎么崛起的？” 好答案可能是详细解释历史背景，不好答案可能是一个很简单的总结。

DPO 就是教模型：“以后像好答案那样回答，不要像差答案那样。”

想象你是个厨师，模型就是你的一本菜谱。DPO 的训练方法就像根据顾客的反馈，改进你做菜的方式——更偏向大家喜欢的做法，避免他们不喜欢的做法。但你不会完全推翻原来的菜谱，而是在原有基础上做优化。

调节参数 β（贝塔）控制你可以改多少：

方法	描述
RLHF	训练一个“美食评论家”（奖励模型），再用复杂的算法（比如 PPO）调整模型。过程复杂，训练慢。
DPO	不用奖励模型，直接用好/坏答案做训练，方法简单、效率更高。

DPO 像直接根据顾客的喜好改菜谱，而不是请一个评论家反复评分再调整。

最好的做法是两步走：

这种方法能得到效果更好的模型。

DPO 适合以下情况：

不适合的任务：