PPO 的梯度裁剪真的能防止 r(θ) 超过 1±epsilon 吗？

Does PPO's gradient clipping really prevent r(θ) from exceeding 1±epsilon?

更新 PPO 中的策略时，裁剪部分是将权重停止在 r(θ) 恰好为 1±epsilon 的确切值处，还是允许超过该值然后阻止其进一步移动通过将梯度设置为零？哪一个是实际发生的事情？

or does it allow to exceed that value and then prevent it from going any further by setting the gradient to zero?

这正是它的作用。 PPO 中的裁剪项不能阻止 r(θ) 超过 1±ε，但超过它后，梯度将为零，r(θ) 将被反向传播有效忽略。

但是请记住，这一切都是与其他时间步长的经验同时发生的；这意味着 r(θ) 在时间 t 有可能移回 1±ε 区域，此时它将再次开始更新。

最后的结果是|1-r(θ)|将在所有时间步长大致（但不完全）受 ε 的限制。