type
status
date
slug
summary
tags
category
icon
password

一、Proximal Policy Optimization (PPO) Loss

PPO 的核心思想是在更新策略时,限制新旧策略之间的差异,从而保证训练的稳定性。这通过一个裁剪的(Clipped)代理目标函数来实现。PPO 的优化目标通常包含三个主要的组成部分:策略收益 (Policy Objective)、价值函数损失 (Value Function Loss) 和 熵奖励 (Entropy Bonus)。
将这些组合成一个单一的、需要被优化器最小化总损失函数 (Total Loss Function),其标准形式为:
 
 
其中:
  • 是策略网络和价值网络的参数。
  • 表示对一个批次中所有时间步 的期望。
  • 我们希望最大化策略收益 和熵 ,因此在最小化的损失函数中对它们取负
  • 我们希望最小化价值函数误差 ,因此在损失函数中直接将其相加
  • 是相应的权重系数。
1. 策略损失 (Clipped Surrogate Objective):
这是 PPO 最具创新性的部分,旨在通过限制策略更新的幅度来提高稳定性。
  • 概率比 (Probability Ratio): 它衡量了新旧策略在特定状态动作对上的差异。 是进行数据采样时的旧策略。
  • 优势函数 (Advantage Function): 它衡量了在状态 下采取动作 相对于平均预期的好坏。通常使用广义优势估计 (Generalized Advantage Estimation, GAE) 计算: 其中 是时序差分误差 (TD Error), 是由价值网络估计的状态价值。
  • 裁剪 (Clipping): 它将概率比 强制限制在 的区间内( 通常为 0.2)。当优势 时,目标函数被上限 限制,防止因有利可图的动作而过度更新。当优势 时,目标函数被下限 限制,防止因不明智的动作而过度惩罚。
2. 价值函数损失 (Value Function Loss):
价值网络 (Critic) 的目标是准确估计状态的价值 。它通过最小化与目标价值之间的均方误差来训练。
  • : 价值网络对状态 的价值估计。
  • : 目标价值,在 GAE 框架下,它通常是优势函数估计值与当前价值估计之和,即
3. 熵奖励 (Entropy Bonus):
为了鼓励探索、防止策略过早地收敛到次优解,PPO 在目标函数中加入了一个熵项。熵衡量了策略的随机性。 最大化熵等同于在总损失中减去它,从而鼓励策略保持探索性。

二、Generative Reward Policy Optimization (GRPO) Loss

GRPO 专为简化大语言模型(LLM)的 RLHF (Reinforcement Learning from Human Feedback) 过程而设计。其核心创新在于移除了价值网络 (Critic),直接通过对一批生成结果的奖励进行归一化来估计优势,显著降低了训练的内存和计算开销。
GRPO 的损失函数形式上与 PPO 的策略损失非常相似,但其应用方式和优势计算完全不同。
 
 
1. 核心组件
  • 概率比: 在 LLM 的上下文中, 是提示 (prompt), 是生成的响应 (response)。
  • 基于组的优势估计: 这是 GRPO 的关键。对于同一个提示 ,首先用旧策略 生成一组 个响应 。然后,用一个奖励模型 对每个响应打分,得到奖励 。优势通过对这组奖励进行标准化得到:
    • 其中 。GRPO 使用组内奖励的均值作为基线 (baseline),而不是像 PPO 那样依赖一个独立训练的价值网络。
2. 核心问题:粒度错配 (Granularity Mismatch)
GRPO 的不稳定性根源在于其内在的设计矛盾
  • 奖励信号是序列级的:优势 是根据整个序列 的质量计算出来的。
  • 策略更新是词元级的:上述损失函数被(隐式地)应用到序列中的每一个词元 (token) 上。即,使用序列级的优势 去加权每个词元的概率比
这种错配导致一个序列的整体好坏(高或低的 )被不加区分地归因于其中的每一个词元。这引入了极高的训练方差,尤其是在长序列中,噪声会不断累积,最终导致模型训练崩溃。

三、Group Sequence Policy Optimization (GSPO) Loss

GSPO 的提出正是为了解决 GRPO 的严重不稳定性问题。其核心创新是将优化的基本单位从“词元”提升到了“序列”,确保了奖励、裁剪和优化都在同一层级上进行,完美解决了 GRPO 的粒度错配问题。
GSPO 的优化目标函数如下:
 
1. 核心组件
  • 序列重要性比例 (Sequence Importance Ratio): 这是 GSPO 最关键的革新,它在序列级别上进行重要性采样,并进行了长度归一化以降低方差:
    • 是当前策略对整个序列 的生成概率。
    • 次方根的长度归一化,统一了不同长度序列的重要性比例的尺度。
    • 这个比例直接衡量了整个采样序列与当前策略的整体偏差,与序列级的奖励天然对齐。
  • 优势函数: GSPO 完全沿用了 GRPO 中基于组的优势估计方法,无需价值模型。
2. 核心优势:粒度对齐 (Granularity Alignment)
GSPO 的成功源于它在根本上对齐了三个关键组件的运作粒度
  1. 奖励信号 (): 序列级 (Sequence-level)。
  1. 重要性权重 (): 序列级 (Sequence-level)。
  1. 优化单位 (Clipping & Min): 直接作用于 ,也是序列级 (Sequence-level)。
通过将优化的所有核心环节都统一在“序列”这个维度上,GSPO 修正了 GRPO 的基本缺陷,使得信用分配更加准确,梯度方差大大降低,从而实现了对大型生成模型的稳定、高效的策略优化。
百度云4机A800测试GSPO vs GRPO
Loading...