如何为 q-learning 设置状态 space?
How do I set up a state space for q-learning?
这显然是非常明显和基本的,因为我找不到任何关于它的教程,但是如何为 q-learning 环境设置状态 space?
如果我没理解错的话,每个状态都需要关联一个值,对吧?如果是这样,如果我有多个输入变量怎么办?实质上;
stateSpace = ???
一旦我有了状态 space,我该如何改变状态?假设它基于 3 个变量,V1 V2 和 V3。 q-learning 算法只接收该状态的单个数字表示,对吗?如何使用变量和状态 space 来 return 表示状态的单个值?
很抱歉,如果这是 obvious/basic,谢谢您的宝贵时间。
我想你可能对 Q Learning 涉及的参数有点困惑。这是我们拥有的:
奖励:给予代理进入状态的奖励。这可以是正数或负数,但应该是一个数字。
状态:关于游戏状态的所有相关信息。
Observation:一个张量,包含允许代理了解游戏状态的信息。
Q值:采取特定行动的"quality"。
我们可以通过比较我们对某个动作的预期质量(从长远来看它会提高我们的奖励多少)和我们在采取该动作后实际发现的质量来训练网络。
在每个滴答声中,我们都会更新状态,然后代理进行新的观察,为其提供新的输入值以供使用。
这显然是非常明显和基本的,因为我找不到任何关于它的教程,但是如何为 q-learning 环境设置状态 space?
如果我没理解错的话,每个状态都需要关联一个值,对吧?如果是这样,如果我有多个输入变量怎么办?实质上;
stateSpace = ???
一旦我有了状态 space,我该如何改变状态?假设它基于 3 个变量,V1 V2 和 V3。 q-learning 算法只接收该状态的单个数字表示,对吗?如何使用变量和状态 space 来 return 表示状态的单个值?
很抱歉,如果这是 obvious/basic,谢谢您的宝贵时间。
我想你可能对 Q Learning 涉及的参数有点困惑。这是我们拥有的:
奖励:给予代理进入状态的奖励。这可以是正数或负数,但应该是一个数字。
状态:关于游戏状态的所有相关信息。
Observation:一个张量,包含允许代理了解游戏状态的信息。
Q值:采取特定行动的"quality"。
我们可以通过比较我们对某个动作的预期质量(从长远来看它会提高我们的奖励多少)和我们在采取该动作后实际发现的质量来训练网络。
在每个滴答声中,我们都会更新状态,然后代理进行新的观察,为其提供新的输入值以供使用。