实际场景中的最大 Q 值?

Maximum Q-values in practical scenario?

Q-learning 是一种非常容易实现的东西,可以很容易地应用于探索和解决各种环境或游戏。但是随着状态的复杂性增加而没有。可能动作的增加,Q-learning 的实用性降低。

假设我有一个游戏(让我们以在 GTA 中驾驶汽车为例),我将状态作为预处理帧提供并要求它采取一些行动。但是这里出现了两个问题:-

  1. 没有。 Q 值的增加是因为有很多独特的状态和相应的 "high" 奖励动作。
  2. 状态值也将包含一个相当大的数组,因为它们都是像素值,因此它们变得非常庞大。

Thus, if we are faced with multiple Q-values and big 'state' values, then it would take some time for the agent to compare which state it is in and then take the action, by which we would have transitioned in a new state (Speed is a very important factor in this)

那么,我们将如何解决这种情况?我 认为 我们可以为此使用 Monte Carlo 但这可能也需要时间。那么有没有其他的solution/algorithm可以解决呢?或者我真的可以在这种情况下使用 Q-learning?或者也许我应该买一个 DDR5 RAM 就到此为止?顺便说一句,我现在在使用 DDR3 ;)

任何帮助或指导?

由于您要处理环境中的大量状态,您可能应该考虑使用某种 function approximation 而不是使用 Q 值的表格表示。

在许多实际问题中,将所有 Q 值存​​储在 table 中是不切实际的,原因有几个。来自 Sutton and Barto's book:

The problem is not just the memory needed for large tables, but the time and data needed to fill them accurately. In other words, the key issue is that of generalization. [...] Function approximation is an instance of supervised learning, the primary topic studied in machine learning, artificial neural networks, pattern recognition, and statistical curve fitting. In principle, any of the methods studied in these fields can be used in reinforcement learning as described in this chapter.

在这种情况下,Q-learning 实现起来并不是那么简单,尽管工作原理保持不变。