为什么 Deep Q 网络算法只执行一个梯度下降步骤？

Why Deep Q networks algorithm performs only one gradient descent step?

为什么dqn算法只执行一步梯度下降，即只训练一个epoch？它不会受益于更多的 epochs，它的准确性不会随着更多的 epochs 而提高吗？

时间效率。

理论上，在策略迭代/评估方案中，应该等到收敛后再进行下一次更新。但是，这可能 (a) 永远不会发生，(b) 花费太多。所以人们通常会以较小的学习率做一步，希望批评家 (Q) 不是 "too wrong"。

您可以尝试更多步骤，但一般来说，执行多少梯度步骤是一种设计选择，他们可能发现这效果最好。