深度强化学习网络的 Q 值数量

Number of Q values for a deep reinforcement learning network

我目前正在开发一个深度强化学习网络,但是,我对神经网络输出中的 q 值数量有一点疑问。我总共会有 150 个 q 值,这对我个人来说似乎太多了。我已经阅读了几篇论文和书籍,这可能是一个问题。我知道这取决于我要构建的神经网络类型,但是你们认为 q 值的数量太高了吗?我应该减少它吗?

什么是"too much",没有一般原则。一切都完全取决于问题和学习能力。特别是只要 Q(a, s) 的内部参数化是有效的,动作的数量就不一定重要。举个例子让我们假设神经网络实际上是 NN(a, s) = Q(a, s) 的形式,换句话说,它接受作为 input 的动作,以及状态,并输出 Q 值。如果这样的架构可以在考虑的问题中进行训练,那么它可能能够扩展到大动作 spaces;另一方面,如果神经网络基本上每个动作都有独立的输出,形式为 NN(s)[a] = Q(a, s) 那么许多动作会导致模型的学习信号相对稀疏,从而导致速度变慢收敛。

既然你问的是减少行动space,听起来真正的问题有复杂的控制(也许它是一个连续的控制域?)你正在寻找进行一些离散化以使其更易于学习。如果是这种情况,您将不得不遵循典型的试错法 - 尝试简单的操作 space,观察动态,如果结果不令人满意 - 增加问题的复杂性。这允许进行迭代改进,而不是朝相反的方向前进 - 从过于复杂的设置开始以获得任何结果,而不是在不知道什么是 "reasonable values".

的情况下减少它