强化学习（3） DPO | Blog de Simon🫣

type

status

date

slug

summary

tags

category

icon

password

📎

DPO 是纯纯的 数学魔法时间

参考 zhuanlan.zhihu.com

zhuanlan.zhihu.com

zhuanlan.zhihu.com

和 zhuanlan.zhihu.com

zhuanlan.zhihu.com

zhuanlan.zhihu.com

1. 先解释下后面的符号含义

：是 reward_model，

：是我们要优化的模型（actor model），

：是 dpo 和 ppo 都用到的 reference_model。

2. 再看看几个重要的 loss 和公式

RLHF 一般会分 2 步:

第一步是训练 reward model。训练数据是同一个 prompt 的 2 个回答，让人或 GPT4 标注哪个回答更好，reward model 会去优化如下的 loss：

第二步是用 RL 算法来提升模型的得分（PPO简化版，这里的loss并非 actor 和 critic loss 而是策略梯度下降的loss）：

dpo loss：

KL 散度：

3. OK 正式开始推导

针对 ppo 的 loss 函数，我们做以下变换：

代入 KL 散度（提取放到了左下角）：

乘上，把 max 变成 min 得：

等价变换得：

根据得：

这里我们可以构造出一个新的概率分布：

进行分母归一化，为的是使保证分布的概率和等于 1，分母：

继续对 ppo 的 loss 函数等价变换得：

化简得：

由于和完全没有关系，可以省略，得：

代入 KL 散度得（左下角的没有了）：

由于 KL 散度的非负性质，在 2 个分布相等时取最小值。的最优解就是 ，PPO 的最优概率分布就是 。

也就是说，在已知 Reward_model 的参数的情况下，我们可以求得 PPO 的最优解。

另一个角度来说，由的公式，我们相当于是得到了和的关系，那么是否我们可以把训练转化成直接去训练呢？

转换一下 的定义式可以得到：

等价变换得：

把的等价表达式代入到 Reward_model 的 loss 函数：

DPO 通过以上的公式转换把 RLHF 无损地转化为了 SFT，在训练的时候不再需要同时跑 4 个模型（reward model, ref model, critic, actor），而是只用跑 actor 和 ref 2 个模型，甚至由于不再在线采数据，ref model 的输出可以预先存下来，训练的时候重复使用。

作者:SimonSun
链接:https://simonsun.xyz//article/llm-10
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

相关文章

总结：PPO GRPO GSPO Loss 分析

Lazy loaded image

Lazy loaded image

最近的开源模型汇总（8.06）

Lazy loaded image

RAG技术汇总（4）高级检索方法

Lazy loaded image

RAG技术汇总（3）上下文与内容丰富

Lazy loaded image

RAG技术汇总（2）查询增强

Lazy loaded image

谈阅读：如何做一个好的读者 RAG技术汇总（2）查询增强

Loading...

目录

0%

SimonSun

Internet Malou, LLM Rookie, Bug Maker🤧

最新发布

总结：PPO GRPO GSPO Loss 分析

服务器从零到 personal workspace

昇腾 310_P3 Qwen2.5 LLM VLM Emb Rerank部署

昇腾 910_P4 Qwen2.5 LLM VLM Emb Rerank部署

最近的开源模型汇总（8.06）

公告

🙌README🙌

🤯There is nothing left

in my right brain,

🤯and there is nothing right

in my left brain...

⭐I wish you every success⭐

目录

0%