为什么 Deep Q 网络算法只执行一个梯度下降步骤?

Why Deep Q networks algorithm performs only one gradient descent step?

为什么dqn算法只执行一步梯度下降,即只训练一个epoch?它不会受益于更多的 epochs,它的准确性不会随着更多的 epochs 而提高吗?

时间效率。

理论上,在策略迭代/评估方案中,应该等到收敛后再进行下一次更新。但是,这可能 (a) 永远不会发生,(b) 花费太多。 所以人们通常会以较小的学习率做一步,希望批评家 (Q) 不是 "too wrong"。

您可以尝试更多步骤,但一般来说,执行多少梯度步骤是一种设计选择,他们可能发现这效果最好。