如何为 q-learning 设置状态 space?

How do I set up a state space for q-learning?

这显然是非常明显和基本的,因为我找不到任何关于它的教程,但是如何为 q-learning 环境设置状态 space?

如果我没理解错的话,每个状态都需要关联一个值,对吧?如果是这样,如果我有多个输入变量怎么办?实质上;

stateSpace = ???

一旦我有了状态 space,我该如何改变状态?假设它基于 3 个变量,V1 V2 和 V3。 q-learning 算法只接收该状态的单个数字表示,对吗?如何使用变量和状态 space 来 return 表示状态的单个值?

很抱歉,如果这是 obvious/basic,谢谢您的宝贵时间。

我想你可能对 Q Learning 涉及的参数有点困惑。这是我们拥有的:

奖励:给予代理进入状态的奖励。这可以是正数或负数,但应该是一个数字。

状态:关于游戏状态的所有相关信息。

Observation:一个张量,包含允许代理了解游戏状态的信息。

Q值:采取特定行动的"quality"。

我们可以通过比较我们对某个动作的预期质量(从长远来看它会提高我们的奖励多少)和我们在采取该动作后实际发现的质量来训练网络。

在每个滴答声中,我们都会更新状态,然后代理进行新的观察,为其提供新的输入值以供使用。