为什么在 MRP 的贝尔曼方程中 Gt+1 = v(St+1)?

Why Gt+1 = v(St+1) in Bellman Equation for MRPs?

在第19页David Silver的<第2讲:马尔可夫决策过程>中,它有以下推导公式:

我发现 is equal to 这意味着 Gt+1 = v(St+1) 所以 Gt = v(St).

根据Return定义:

并根据 Gt = v(St):

v(St) = Gt =

但是Value Function的定义是

这意味着 v(s) = = 这是绝对错误的。

我的问题是

  1. 为什么 Gt+1 = v(St+1)?
  2. 我的推导错误在哪里?

第一个大错误是 E[a + b] = E[a + c] 实现 b=c 的说法,这不是预期的工作方式。特别是 E[a + b] = E[a] + E[b]E[a] = E[a] + E[c] 因此我们有 E[b] = E[c](而不是 b=c!)所以 G_{t+1} 不等于 v(S_{t+1}),但是 E[G_{t+1}] = v(S_{t+1})(来自定义)。

一般来说函数值相等并不会使参数相等。同样的方式 f(x + a) = f(x + b) 并不意味着 a=b 表示 f(x) = x^2 因为它也适用于 x=0, a=-1, b=1.