让 Actor 和 Critic 使用截然不同的模型有好处吗?

Are there benefits to having Actor and Critic use significantly different models?

在 Actor-Critic 方法中,Actor 和 Critic 被分配了两个互补但不同的目标。我试图了解这些目标(更新策略和更新价值函数)之间的差异是否足够大以保证 Actor 和 Critic 使用不同的模型,或者它们是否具有足够相似的复杂性以致于应该重用相同的模型为简单起见。我意识到这可能是非常有情境的,但不是以什么方式。例如,随着模型复杂性的增加,平衡会发生变化吗?

如果对此有任何经验法则,或者您是否知道解决该问题的特定出版物,请告诉我。

实证结果表明恰恰相反——重要的是 相同的 网络同时执行这两项操作(直到某些最终 layer/head)。这样做的主要原因是学习价值网络(critis)为塑造策略(参与者)的表现提供了信号,否则几乎不可能获得。

事实上,如果您考虑这些,这些是极其相似的目标,因为对于最佳确定性策略

pi(s) = arg max_a Q(s, a) = arg max_a V(T(s, a))

其中 T 是过渡动力学。