为什么使用非线性函数逼近器随机化强化学习模型的样本会减少方差?

Why does randomizing samples of reinforcement learning model with a non-linear function approximator reduce variance?

我看过DQN论文

在阅读 DQN 论文时,我发现使用非线性函数逼近器随机选择和学习样本可以减少 RL 中的发散。

如果是这样,为什么在输入数据强相关时使用非线性函数逼近器学习 RL 会发散?

我相信 An Analysis Of Temporal-Difference Learning with Function ApproximationX 部分(从第 687 页开始)提供了您问题的答案。总之,存在应用TD(0)贝尔曼算子后平均预测误差实际上增加的非线性函数;因此,政策最终会出现分歧。这通常是深度神经网络的情况,因为它们本质上是非线性的,并且从优化的角度来看往往表现不佳。

或者,对独立同分布i.i.d.)数据进行训练可以计算无偏估计梯度,这是随机梯度下降 (SGD) 等一阶优化算法收敛到损失函数的局部最小值所必需的。这就是为什么 DQN 从大型回放内存中采样随机小批量,然后使用 RMSProp(SGD 的一种高级形式)减少损失。