PPO 的梯度裁剪真的能防止 r(θ) 超过 1±epsilon 吗?

Does PPO's gradient clipping really prevent r(θ) from exceeding 1±epsilon?

更新 PPO 中的策略时,裁剪部分是将权重停止在 r(θ) 恰好为 1±epsilon 的确切值处,还是允许超过该值然后阻止其进一步移动通过将梯度设置为零?哪一个是实际发生的事情?

or does it allow to exceed that value and then prevent it from going any further by setting the gradient to zero?

这正是它的作用。 PPO 中的裁剪项不能阻止 r(θ) 超过 1±ε,但超过它后,梯度将为零,r(θ) 将被反向传播有效忽略。

但是请记住,这一切都是与其他时间步长的经验同时发生的;这意味着 r(θ) 在时间 t 有可能移回 1±ε 区域,此时它将再次开始更新。

最后的结果是|1-r(θ)|将在所有时间步长大致(但不完全)受 ε 的限制。