为什么 Trust Region Policy Optimization 是一种 On-policy 算法？

Why is the Trust Region Policy Optimization a On-policy algorithm?

我想知道为什么 Trust Region Policy Optimization 是一种 On-policy 算法？

在我看来，在 TRPO 中，我们通过旧策略进行采样并更新新策略，并应用重要性采样来纠正偏差。因此，它更像是一种离策略算法。但是最近，我读到一篇paper，上面写着：

In contrast to off-policy algorithms, on-policy methods require updating function approximatorsaccording to the currently followed policy. In particular, we will consider Trust Region PolicyOptimization, an extension of traditional policy gradient methods using the natural gradient direction.

有没有我理解错的地方？

on-policy 方法的关键特征是它们必须使用估计的策略才能与环境交互。在 Trust Region Policy Optimization 的情况下，它有效地使用当前策略获取样本（即与环境交互），然后更新策略并在下一次迭代中使用新的策略估计。

因此，该算法在学习过程中使用估计的策略，这是 on-policy 方法的定义。

为什么 Trust Region Policy Optimization 是一种 On-policy 算法？

Why is the Trust Region Policy Optimization a On-policy algorithm?

artificial-intelligence

reinforcement-learning