Objective 近端策略优化中的函数
Objective function in proximal policy optimization
在PPO的objective函数中,第二项引入了价值函数神经网络的平方误差损失。该术语本质上是平方优势值,对吗?
不,那是训练 V 的 TD 误差。您可以将两个损失分开并且没有任何变化,因为网络不共享参数。在实践中,策略是在等式的第一项上训练的,而 V 是在第二项上训练的。
在PPO的objective函数中,第二项引入了价值函数神经网络的平方误差损失。该术语本质上是平方优势值,对吗?
不,那是训练 V 的 TD 误差。您可以将两个损失分开并且没有任何变化,因为网络不共享参数。在实践中,策略是在等式的第一项上训练的,而 V 是在第二项上训练的。