如何为 q-learning 设置状态 space？

Question

这显然是非常明显和基本的，因为我找不到任何关于它的教程，但是如何为 q-learning 环境设置状态 space？

如果我没理解错的话，每个状态都需要关联一个值，对吧？如果是这样，如果我有多个输入变量怎么办？实质上；

stateSpace = ???

一旦我有了状态 space，我该如何改变状态？假设它基于 3 个变量，V1 V2 和 V3。 q-learning 算法只接收该状态的单个数字表示，对吗？如何使用变量和状态 space 来 return 表示状态的单个值？

很抱歉，如果这是 obvious/basic，谢谢您的宝贵时间。

Answer 1

我想你可能对 Q Learning 涉及的参数有点困惑。这是我们拥有的：

奖励：给予代理进入状态的奖励。这可以是正数或负数，但应该是一个数字。

状态：关于游戏状态的所有相关信息。

Observation：一个张量，包含允许代理了解游戏状态的信息。

Q值：采取特定行动的"quality"。

我们可以通过比较我们对某个动作的预期质量（从长远来看它会提高我们的奖励多少）和我们在采取该动作后实际发现的质量来训练网络。

在每个滴答声中，我们都会更新状态，然后代理进行新的观察，为其提供新的输入值以供使用。

How do I set up a state space for q-learning?