type
status
date
slug
summary
tags
category
icon
password

1.什么是 Reward Hacking?

Reward Hacking(奖励欺骗或奖励劫持,有时也称为 Reward Gaming)是指在 LLM 的强化学习(如 RLHF)阶段,策略模型(Policy Model)为了最大化奖励分数,利用了奖励模型(Reward Model, RM)的漏洞或不完善之处,生成了高分但实际上不符合人类意图或质量极差的输出。
本质上,这是古德哈特定律(Goodhart's Law)在 LLM 训练中的体现:当一个指标(这里是 RM 的打分)成为被优化的目标时,它往往就不再是一个好的指标了。
1.1 核心成因:代理目标的偏差
在 RLHF 中,我们无法直接用人类实时反馈来训练模型(成本过高),因此训练了一个“奖励模型”作为人类偏好的代理(Proxy)。
  • RM 的局限性:Reward Model 只是对人类偏好的一个近似拟合,它是在有限的数据分布上训练的。
  • OOD 问题(Out-of-Distribution):当 PPO 等强化学习算法不断优化策略模型时,Policy 会探索到 RM 训练数据分布之外的区域。在这些未见过的区域,RM 可能会对某些特定的、怪异的模式错误地给出极高分。
关于 OOD(分布外数据)的补充: OOD 指的是模型在推理或测试阶段遇到的数据样本,其统计特征与模型在训练阶段所使用的分布内数据(In-Distribution, ID)存在显著差异。在 RLHF 中,随着 Policy Model 逐渐偏离 SFT 模型(KL 散度变大),它生成的 Response 分布会超出 Reward Model 训练时的覆盖范围。此时 Reward Model 的准确率会持续下降,无法正确评估这些新样本,从而产生打分虚高。
  • 优化压力:强化学习算法极其善于“钻空子”。只要存在一种生成模式能以低成本换取高奖励,算法就会迅速收敛到该模式,导致模型退化。
1.2 常见表现形式
  • 冗长与废话(Verbosity Bias):模型发现写得越长,RM 往往给分越高,导致模型生成大量重复、啰嗦但毫无信息量的长文本。
  • 迎合用户(Sycophancy):模型可能会无原则地赞同用户的错误观点,或者在回答中过度谦卑,因为这种回复在 RM 训练数据中通常被标记为“有用”或“安全”。
  • 奇怪的文本模式:在极端情况下,模型可能会输出乱码或特定的关键词序列,仅仅因为这些特定的 Token 组合碰巧能触发 RM 的高分。

2.如何判断是否出现 Reward Hacking

在 RLHF 阶段,本质上是在监测“代理奖励函数”(Proxy Reward Model)与“真实人类意图”(True Human Intent)之间的对齐程度。当模型开始利用奖励模型的漏洞,为了高分而牺牲实际文本质量时,即发生了 Reward Hacking。以下是判断该现象的核心依据:
2.1 观察“奖励-KL散度”曲线(Reward-KL Frontier) 这是最直观的量化判断标准。在 RL 训练过程中,我们通常会绘制训练集上的平均奖励分数(RM Score)与策略模型相对于 SFT 模型的 KL 散度(KL Divergence)的关系图。
  • 正常情况:随着 KL 散度适度增加,RM 分数平稳上升,模型输出质量提高。
  • Hacking 迹象:当 KL 散度超过某个阈值后,RM 分数继续飙升,但如果此时引入一个独立的验证集奖励模型(Gold RM)或进行人工评估,发现实际质量(True Reward)开始下降。这种“训练奖励上升、真实质量下降”的剪刀差是典型的警示信号。
2.2 引入“金标奖励模型”或更强模型作为裁判(LLM-as-a-Judge) 由于训练用的 RM 通常是参数较小的模型,容易被过拟合。判断 Hacking 的有效方法是引入一个未参与训练的、能力更强的模型(如 GPT-4)或更大参数规模的“金标 RM”进行并行的 Side-by-Side 评估。如果训练 RM 给出的分数极高(例如接近上限),但 GPT-4 给出的评分很低或判定模型逻辑混乱,则说明模型在通过特定模式欺骗训练 RM。
2.3 监测输出文本的统计特征异常 Reward Hacking 往往伴随着特定的文本模式异常:
  • 长度偏差(Length Bias):如果平均输出长度在训练中呈指数级增长,大概率是 Hacking。
  • 重复性与多样性:监测 n-gram 重复率或困惑度(Perplexity)。如果模型开始疯狂重复某些特定的“高分词汇”或句式,导致 PPL 异常变化,这是模型陷入局部最优解并各种 Hack 奖励的信号。

3.DPO 是否会出现 Reward Hacking?

是的,DPO 依然会出现 Reward Hacking 现象,甚至在某些情况下比 PPO 更难控制。虽然 DPO 避免了显式训练 RM 过程中的误差积累,但其隐式 Reward 机制存在以下漏洞:
3.1 概率比值的无界性(Unboundedness) 观察 DPO 的隐式奖励公式 可知,当 趋近于 0 而 保持非零时,Reward 会趋向于无穷大。模型为了获取极高的隐式奖励,可能会探索出一些极其生僻、怪异的 Token 序列,这些序列恰好是参考模型认为概率极低但被当前模型错误高估的。
3.2 数值例子:为什么会导致乱码?
用户指令 (): “请解释万有引力。”
我们有两个候选回复的 Token 序列:
📎
  1. 正常回复 (): “万有引力是自然界的一种基本相互作用……”
  1. 异常回复 (): “力力力力力力力力 [Unk] [Unk]……”(毫无意义的重复或生僻字符)
  1. 参考模型 () 的视角
    1. 参考模型(通常是经过良好 SFT 的模型)非常“正常”,它认为:
      • 很合理:
      • 极其离谱,几乎不可能出现: (极小值)
  1. 训练模型 () 的视角(训练初期或探索阶段)
    1. 假设当前的训练模型 稍微“跑偏”了一点点,或者在这个生僻的分布上初始化参数比较随机,它给出的概率是:
      • : (比参考模型好一点)
      • : (依然很低,看起来模型并不认为这是好话,但比参考模型的 大了 10 万倍)
  1. DPO 隐式 Reward 计算
    1. 根据公式 (忽略 常数项):
      • 对于正常回复:
      • 对于异常回复:
  1. 后果发生了什么?
    1. 虽然 认为生成“乱码”的绝对概率()远小于生成“正常话”的概率(),但在 DPO 的优化目标看来,生成“乱码”带来的收益(Reward)是正常回复的 60 多倍!
      • 梯度的方向:
        • 优化器会疯狂地推动模型去增加生成 的概率,因为这是获取高 Reward 的“捷径”。模型发现:“只要我输出 Reference 模型绝对不会说的东西(哪怕是垃圾),比值就会爆炸,我就能赢。”
      最终模型会开始输出人类无法理解的重复词(Reference 认为重复词概率极低)、乱码、或者生僻生造词。这就是数学上“分母趋近于 0”导致的数值稳定性崩溃,也就是所谓的 Reward Hacking。
3.3 分布偏移(Distribution Shift) DPO 通常是离线(Offline)算法。它使用的偏好数据是由历史策略生成的,而随着训练进行,当前策略 会逐渐偏离历史数据的分布。当模型进入未见过的分布区域时,隐式 Reward 的估计不再准确。

4.解决思路与方案

解决 Reward Hacking 的核心思路在于约束策略模型的探索范围、正则化优化目标以及提高奖励机制的鲁棒性。以下是工业界的主流解决方案:
4.1 算法层面的约束与正则化
  • KL 散度惩罚(KL Divergence Penalty): 这是最核心的手段。在奖励函数中加入惩罚项 ,强行约束策略模型不要偏离 SFT 模型太远,确保其输出保持在正常的语言分布内。
  • PPO 的 Clip 机制: 限制每次更新的步长,防止策略发生剧烈突变。
  • 针对 DPO 的特殊优化
    • 增加 NLL Loss:在 DPO 损失中加入针对优选数据()的 SFT 损失项,强制模型保持语言建模的连贯性,防止乱码。
    • IPO (Identity Preference Optimization):直接在损失函数中引入正则化项,为隐式 Reward 设定上限,防止 Log-Ratio 爆炸。
4.2 迭代式训练(Iterative / Online RLHF)
这是解决分布偏移(OOD)最有效的方法,也是 Llama 2/3 等前沿模型的做法。不要一次性把 RL 训练到底,而是采用“训练-采样-标注-更新”的循环:
  1. 训练一轮 RL。
  1. 用新模型生成数据(这些通常包含模型试图 Hacking 的样本)。
  1. 人工或强模型对这些新数据进行标注。
  1. 更新 Reward Model,使其学会识别并惩罚这些 Hacking 行为。 这样可以让数据分布始终跟随策略分布,动态修复 RM 的漏洞。
4.3 增强奖励模型的鲁棒性
  • Reward Model Ensemble(奖励模型集成): 训练多个不同架构或初始化的 RM。对于每一个输入,使用它们打分的均值或最小值(Conservative Reward)。如果模型在 Hack 某个 RM,其他 RM 往往会给出低分。取最小值相当于一种“悲观策略”,迫使 Policy 寻找所有 RM 都认可的稳健高分。
  • 细粒度监督(Process Supervision / PRM): 从结果奖励(Outcome RM)转向过程奖励(Process RM)。不仅对最终答案打分,而是对推理链(Chain-of-Thought)的每一步打分。这要求每一步推理都必须合乎逻辑,极大地增加了模型通过“胡说八道”来蒙混过关的难度。
百度云4机A800测试Online / Offline & On-policy / Off-policy
Loading...