深度强化学习网络的 Q 值数量

Number of Q values for a deep reinforcement learning network

我目前正在开发一个深度强化学习网络，但是，我对神经网络输出中的 q 值数量有一点疑问。我总共会有 150 个 q 值，这对我个人来说似乎太多了。我已经阅读了几篇论文和书籍，这可能是一个问题。我知道这取决于我要构建的神经网络类型，但是你们认为 q 值的数量太高了吗？我应该减少它吗？

什么是"too much"，没有一般原则。一切都完全取决于问题和学习能力。特别是只要 Q(a, s) 的内部参数化是有效的，动作的数量就不一定重要。举个例子让我们假设神经网络实际上是 NN(a, s) = Q(a, s) 的形式，换句话说，它接受作为 input 的动作，以及状态，并输出 Q 值。如果这样的架构可以在考虑的问题中进行训练，那么它可能能够扩展到大动作 spaces；另一方面，如果神经网络基本上每个动作都有独立的输出，形式为 NN(s)[a] = Q(a, s) 那么许多动作会导致模型的学习信号相对稀疏，从而导致速度变慢收敛。

既然你问的是减少行动space，听起来真正的问题有复杂的控制（也许它是一个连续的控制域？）你正在寻找进行一些离散化以使其更易于学习。如果是这种情况，您将不得不遵循典型的试错法 - 尝试简单的操作 space，观察动态，如果结果不令人满意 - 增加问题的复杂性。这允许进行迭代改进，而不是朝相反的方向前进 - 从过于复杂的设置开始以获得任何结果，而不是在不知道什么是 "reasonable values".

的情况下减少它

深度强化学习网络的 Q 值数量

Number of Q values for a deep reinforcement learning network

reinforcement-learning

neural-network

q-learning

deep-learning