带策略的状态值和状态动作值 - 带策略的贝尔曼方程

State value and state action values with policy - Bellman equation with policy

我刚刚开始深度强化学习,我正在努力掌握这个概念。

我有这个确定性的贝尔曼方程

当我从 MDP 实现随机性时,我得到 2.6a

我的等式是这个假设是正确的。我看到这个实现 2.6a 在状态值函数上没有策略标志。但对我来说,这没有意义,因为我使用的是我可能最终会采取哪些不同的后续步骤的概率。我认为这与说政策相同。如果是,2.6a 是正确的,那么我可以假设其余的(2.6b 和 2.6c)因为那时我想像这样编写动作状态函数:

我之所以这样做是因为我想从确定性的角度到非确定性的角度来解释自己。

我希望有人能在这方面提供帮助!

问候 Søren Koch

是的,你的假设是完全正确的。在强化学习领域,值函数是从特定状态开始并遵循策略 π 获得的return。所以是的,严格来说,它应该伴随着政策符号 π 。

贝尔曼方程基本上递归地表示价值函数。但是需要注意的是,贝尔曼方程有两种:

  • Bellman最优方程,表征最优价值函数。在这种情况下,价值函数与最优策略隐式关联。该方程式具有非线性 max 运算符,是您发布的那个。 (最佳)策略依赖有时用星号表示,如下所示: 也许一些简短的文本或论文会忽略这种依赖性,假设它很明显,但我认为任何 RL 教科书都应该首先包含它。例如,参见 Sutton & Barto or Busoniu et al。书籍。

  • Bellman 方程,它表征了价值函数,在本例中与任何策略 π 相关联:

在你的例子中,你的方程 2.6 基于 Bellman 方程,因此它应该删除 max 运算符并包括所有动作和可能的下一个状态的总和。来自 Sutton & Barto(抱歉,您的问题的符号更改,但我认为它不稳定):

不,值函数V(s_t)不依赖于策略。您在等式中看到它是根据最大化数量的操作 a_t 定义的,因此它不是根据任何策略选择的操作定义的。

在非确定性/随机情况下,概率总和将乘以 state-values,但这仍然独立于任何策略。总和仅对不同可能的未来状态求和,但每个乘法都涉及完全相同的 (policy-independent) 动作 a_t。你有这些概率的唯一原因是因为在非确定性情况下,特定状态下的特定动作可能导致多种不同的可能状态之一。这不是由于政策,而是由于环境本身的随机性。


也确实存在政策价值函数这样的东西,在谈论它时应该包括政策的符号。但这通常 不是 只是 "Value function" 的意思,而且 与您向我们展示的等式不匹配 。 policy-dependent 函数会将 max_{a_t} 替换为所有动作的总和 a,并且在总和中策略 pi 选择动作 [=] 的概率 pi(s_t, a) 14=] 在状态 s_t.