Objective 近端策略优化中的函数

Objective function in proximal policy optimization

reinforcement-learning

在PPO的objective函数中，第二项引入了价值函数神经网络的平方误差损失。该术语本质上是平方优势值，对吗？

不，那是训练 V 的 TD 误差。您可以将两个损失分开并且没有任何变化，因为网络不共享参数。在实践中，策略是在等式的第一项上训练的，而 V 是在第二项上训练的。