扫盲 reward hacking 和熵坍缩

type

Post

status

Published

date

Dec 4, 2025

slug

llm-19

summary

1.什么是 Reward Hacking？

Reward Hacking是指在 LLM 的强化学习（如 RLHF）阶段，策略模型（Policy Model）为了最大化奖励分数，利用了奖励模型（Reward Model, RM）的漏洞或不完善之处，生成了高分但实际上不符合人类意图或质量极差的输出。

本质上，这是古德哈特定律（Goodhart's Law）在 LLM 训练中的体现：当一个指标（这里是 RM 的打分）成为被优化的目标时，它往往就不再是一个好的指标了。

1.1 核心成因：代理目标的偏差

在 RLHF 中，我们无法直接用人类实时反馈来训练模型（成本过高），因此训练了一个“奖励模型”作为人类偏好的代理（Proxy）。

RM 的局限性：Reward Model 只是对人类偏好的一个近似拟合，它是在有限的数据分布上训练的。

OOD 问题（Out-of-Distribution）：当 PPO 等强化学习算法不断优化策略模型时，Policy 会探索到 RM 训练数据分布之外的区域。在这些未见过的区域，RM 可能会对某些特定的、怪异的模式错误地给出极高分。

📎

关于 OOD（分布外数据）的补充： OOD 指的是模型在推理或测试阶段遇到的数据样本，其统计特征与模型在训练阶段所使用的分布内数据（In-Distribution, ID）存在显著差异。

在 RLHF 中，随着 Policy Model 逐渐偏离 SFT 模型（KL 散度变大），它生成的 Response 分布会超出 Reward Model 训练时的覆盖范围。此时 Reward Model 的准确率会持续下降，无法正确评估这些新样本，从而产生打分虚高。

优化压力：强化学习算法极其善于“钻空子”。只要存在一种生成模式能以低成本换取高奖励，算法就会迅速收敛到该模式，导致模型退化。

1.2 常见表现形式

冗长与废话（Verbosity Bias）：模型发现写得越长，RM 往往给分越高，导致模型生成大量重复、啰嗦但毫无信息量的长文本。

迎合用户（Sycophancy）：模型可能会无原则地赞同用户的错误观点，或者在回答中过度谦卑，因为这种回复在 RM 训练数据中通常被标记为“有用”或“安全”。

奇怪的文本模式：在极端情况下，模型可能会输出乱码或特定的关键词序列，仅仅因为这些特定的 Token 组合碰巧能触发 RM 的高分。

2.如何判断是否出现 Reward Hacking

在 RLHF 阶段，本质上是在监测“代理奖励函数”（Proxy Reward Model）与“真实人类意图”（True Human Intent）之间的对齐程度。当模型开始利用奖励模型的漏洞，为了高分而牺牲实际文本质量时，即发生了 Reward Hacking。以下是判断该现象的核心依据：

2.1 观察“奖励-KL散度”曲线（Reward-KL Frontier） 这是最直观的量化判断标准。在 RL 训练过程中，我们通常会绘制训练集上的平均奖励分数（RM Score）与策略模型相对于 SFT 模型的 KL 散度（KL Divergence）的关系图。

正常情况：随着 KL 散度适度增加，RM 分数平稳上升，模型输出质量提高。

Hacking 迹象：当 KL 散度超过某个阈值后，RM 分数继续飙升，但如果此时引入一个独立的验证集奖励模型（Gold RM）或进行人工评估，发现实际质量（True Reward）开始下降。这种“训练奖励上升、真实质量下降”的剪刀差是典型的警示信号。

2.2 引入“金标奖励模型”或更强模型作为裁判（LLM-as-a-Judge） 由于训练用的 RM 通常是参数较小的模型，容易被过拟合。判断 Hacking 的有效方法是引入一个未参与训练的、能力更强的模型（如 GPT-4）或更大参数规模的“金标 RM”进行并行的 Side-by-Side 评估。如果训练 RM 给出的分数极高（例如接近上限），但 GPT-4 给出的评分很低或判定模型逻辑混乱，则说明模型在通过特定模式欺骗训练 RM。

2.3 监测输出文本的统计特征异常 Reward Hacking 往往伴随着特定的文本模式异常：

长度偏差（Length Bias）：如果平均输出长度在训练中呈指数级增长，大概率是 Hacking。

重复性与多样性：监测 n-gram 重复率或困惑度（Perplexity）。如果模型开始疯狂重复某些特定的“高分词汇”或句式，导致 PPL 异常变化，这是模型陷入局部最优解并各种 Hack 奖励的信号。

3.DPO 是否会出现 Reward Hacking？

是的，DPO 依然会出现 Reward Hacking 现象，甚至在某些情况下比 PPO 更难控制。虽然 DPO 避免了显式训练 RM 过程中的误差积累，但其隐式 Reward 机制存在以下漏洞：

3.1 概率比值的无界性（Unboundedness） 观察 DPO 的隐式奖励公式可知，当趋近于 0 而保持非零时，Reward 会趋向于无穷大。模型为了获取极高的隐式奖励，可能会探索出一些极其生僻、怪异的 Token 序列，这些序列恰好是参考模型认为概率极低但被当前模型错误高估的。

3.2 数值例子：为什么会导致乱码？

用户指令 (): “请解释万有引力。”

我们有两个候选回复的 Token 序列：

📎

正常回复 (): “万有引力是自然界的一种基本相互作用……”

异常回复 (): “力力力力力力力力 [Unk] [Unk]……”（毫无意义的重复或生僻字符）

参考模型 () 的视角

参考模型（通常是经过良好 SFT 的模型）非常“正常”，它认为：

很合理：

极其离谱，几乎不可能出现： (极小值)

训练模型 () 的视角（训练初期或探索阶段）

假设当前的训练模型稍微“跑偏”了一点点，或者在这个生僻的分布上初始化参数比较随机，它给出的概率是：

: (比参考模型好一点)

: (依然很低，看起来模型并不认为这是好话，但比参考模型的大了 10 万倍)

DPO 隐式 Reward 计算

根据公式（忽略和常数项）：

对于正常回复:

对于异常回复:

后果发生了什么？

虽然认为生成“乱码”的绝对概率（）远小于生成“正常话”的概率（），但在 DPO 的优化目标看来，生成“乱码”带来的收益（Reward）是正常回复的 60 多倍！

梯度的方向：

优化器会疯狂地推动模型去增加生成的概率，因为这是获取高 Reward 的“捷径”。模型发现：“只要我输出 Reference 模型绝对不会说的东西（哪怕是垃圾），比值就会爆炸，我就能赢。”

最终模型会开始输出人类无法理解的重复词（Reference 认为重复词概率极低）、乱码、或者生僻生造词。这就是数学上“分母趋近于 0”导致的数值稳定性崩溃，也就是所谓的 Reward Hacking。

3.3 分布偏移（Distribution Shift） DPO 通常是离线（Offline）算法。它使用的偏好数据是由历史策略生成的，而随着训练进行，当前策略会逐渐偏离历史数据的分布。当模型进入未见过的分布区域时，隐式 Reward 的估计不再准确。

4.Reward Hacking 解决思路与方案

解决 Reward Hacking 的核心思路在于约束策略模型的探索范围、正则化优化目标以及提高奖励机制的鲁棒性。以下是工业界的主流解决方案：

4.1 算法层面的约束与正则化

KL 散度惩罚（KL Divergence Penalty）：这是最核心的手段。在奖励函数中加入惩罚项，强行约束策略模型不要偏离 SFT 模型太远，确保其输出保持在正常的语言分布内。

PPO 的 Clip 机制：限制每次更新的步长，防止策略发生剧烈突变。

针对 DPO 的特殊优化：

增加 NLL Loss：在 DPO 损失中加入针对优选数据（）的 SFT 损失项，强制模型保持语言建模的连贯性，防止乱码。
IPO (Identity Preference Optimization)：直接在损失函数中引入正则化项，为隐式 Reward 设定上限，防止 Log-Ratio 爆炸。

4.2 迭代式训练（Iterative / Online RLHF）

这是解决分布偏移（OOD）最有效的方法，也是 Llama 2/3 等前沿模型的做法。不要一次性把 RL 训练到底，而是采用“训练-采样-标注-更新”的循环：

训练一轮 RL。

用新模型生成数据（这些通常包含模型试图 Hacking 的样本）。

人工或强模型对这些新数据进行标注。

更新 Reward Model，使其学会识别并惩罚这些 Hacking 行为。这样可以让数据分布始终跟随策略分布，动态修复 RM 的漏洞。

4.3 增强奖励模型的鲁棒性

Reward Model Ensemble（奖励模型集成）：训练多个不同架构或初始化的 RM。对于每一个输入，使用它们打分的均值或最小值（Conservative Reward）。如果模型在 Hack 某个 RM，其他 RM 往往会给出低分。取最小值相当于一种“悲观策略”，迫使 Policy 寻找所有 RM 都认可的稳健高分。

细粒度监督（Process Supervision / PRM）：从结果奖励（Outcome RM）转向过程奖励（Process RM）。不仅对最终答案打分，而是对推理链（Chain-of-Thought）的每一步打分。这要求每一步推理都必须合乎逻辑，极大地增加了模型通过“胡说八道”来蒙混过关的难度。

5.什么是 Entropy Collapse（熵坍塌）？

在强化学习（尤其是基于 PPO 的 RLHF / RLAIF）训练中，策略（policy）的输出分布变得过于尖锐，导致采样几乎总是落在少数 token / 序列上，表现为输出高度确定性（deterministic）与多样性显著下降。

在语言模型 RL 中通常把“动作”视为每个时间步生成的 token。对策略，熵衡量动作分布的随机性。熵坍塌时常见现象包括：

模式坍塌（Mode Collapse）：生成内容高度重复，常见为固定句式、固定结尾、循环片段等。

奖励偏置/取巧（Reward Hacking 或 Reward Bias）：模型学到某些“高分捷径”（不一定是漏洞，也可能是 RM 偏好过窄），导致分布支持集变窄。

探索不足与难以纠偏：低熵使采样数据更单一、梯度更集中在少数 token 上；叠加 KL/clip 等约束后，可能出现“既不探索、有效更新也变小”的状态，训练变慢或不稳定。

注意：熵坍塌常与 reward hacking 同时出现，但两者不应完全等同。熵坍塌也可能来自更新过猛、KL 太弱、advantage 方差过大等。

6 解决思路（从最有效/最常用开始）

6.1 引入或增强 KL 约束（KL Penalty / KL Control）

这是 RLHF 中最标准、最常用的稳定器：约束当前策略不要偏离参考策略（通常是 SFT 模型）太远。

直觉：通常保留了更合理的语言分布与多样性；KL 约束能防止策略分布快速变尖、走向极端。

常见实现（token-level one-sample 形式，近似 KL 的惩罚项）：序列级奖励可将 token 惩罚累加后再与 RM 分数合并。

工程建议：优先使用 自适应 KL（adaptive beta）而不是固定 “无脑加大 beta”

设定 target KL 区间（例如每个 token/每条序列的经验目标）
KL 高于目标 ⇒ 增大 beta；KL 低于目标 ⇒ 减小 beta
这样既能防塌，也避免 beta 太大把策略“锁死”导致 reward 上不去。

6.2 熵正则化（Entropy Bonus / Entropy Regularization）

在 PPO 的目标中显式加入熵奖励，直接鼓励更高的动作随机性。

形式（示意）：

作用：提供“保持多样性”的直接梯度信号，能有效延缓分布变尖。

注意：熵正则过大可能损害对齐质量/可控性；常见做法是小幅度开启并与 KL control 配合。

6.3 控制单次更新强度（比只调 LR 更全面）

熵坍塌常见原因之一是“更新太猛”，分布在少数 step 内被推得很尖。

可用的“降冲击”手段包括：

降低 Learning Rate：最直接的止血按钮。

减少 PPO epochs / update steps：同一批 rollout 反复拟合太多次会加速坍塌（对当前 batch 的 advantage 过拟合）。

增大 batch size / rollout size：更稳定的梯度与 advantage 估计（但注意吞吐与成本）。

更强的梯度裁剪（gradient clipping）：防止极端梯度推动分布骤变。

收紧 PPO clip range（epsilon）：让每次策略更新更保守（代价是学习速度可能变慢）。

6.4 处理 reward hacking / 奖励偏置（RM 与数据层面的修正）

熵坍塌经常伴随 RM 对某类 pattern 给出异常高分，导致策略“只走一条路”。

排查与修复路径：

诊断：

看高分样本是否高度同质（重复句式/模板化结尾/特定关键词堆叠）
看 reward 分布是否被少数模式“占领”

修复：

重训或校准 Reward Model：补充 hard negatives、做偏好覆盖、修正过强偏置。
加入规则/约束惩罚：对重复、循环、过长无信息内容等施加额外惩罚（工程上很常见）。
对齐数据再平衡：把“高分但低质量/低多样”的样本显式纳入训练信号中压制它。

6.5实战排查清单（快速定位）

KL 到 reference 是否过低/失控？（是否需要 adaptive beta）

熵曲线是否在少数 step 内骤降？（是否更新过猛：LR/epochs/clip/grad clip）

高 reward 样本是否高度重复？（RM 偏置/漏洞/规则惩罚是否缺失）

advantage 的均值/方差是否异常？（是否需要 whitening/clip、VF 是否崩）

rollout 是否过于贪婪导致数据单一？（temperature/top-p/multi-sample）