为什么在 MRP 的贝尔曼方程中 Gt+1 = v(St+1)?
Why Gt+1 = v(St+1) in Bellman Equation for MRPs?
在第19页David Silver的<第2讲:马尔可夫决策过程>中,它有以下推导公式:
我发现 is equal to 这意味着 Gt+1 = v(St+1) 所以 Gt = v(St).
根据Return定义:
并根据 Gt = v(St):
v(St) = Gt =
但是Value Function的定义是
这意味着
v(s) = =
这是绝对错误的。
我的问题是
- 为什么 Gt+1 = v(St+1)?
- 我的推导错误在哪里?
第一个大错误是 E[a + b] = E[a + c]
实现 b=c
的说法,这不是预期的工作方式。特别是 E[a + b] = E[a] + E[b]
和 E[a] = E[a] + E[c]
因此我们有 E[b] = E[c]
(而不是 b=c
!)所以 G_{t+1}
不等于 v(S_{t+1})
,但是 E[G_{t+1}] = v(S_{t+1})
(来自定义)。
一般来说函数值相等并不会使参数相等。同样的方式 f(x + a) = f(x + b)
并不意味着 a=b
表示 f(x) = x^2
因为它也适用于 x=0, a=-1, b=1.
在第19页David Silver的<第2讲:马尔可夫决策过程>中,它有以下推导公式:
我发现
根据Return定义:
并根据 Gt = v(St):
v(St) = Gt =
但是Value Function的定义是
这意味着
v(s) =
我的问题是
- 为什么 Gt+1 = v(St+1)?
- 我的推导错误在哪里?
第一个大错误是 E[a + b] = E[a + c]
实现 b=c
的说法,这不是预期的工作方式。特别是 E[a + b] = E[a] + E[b]
和 E[a] = E[a] + E[c]
因此我们有 E[b] = E[c]
(而不是 b=c
!)所以 G_{t+1}
不等于 v(S_{t+1})
,但是 E[G_{t+1}] = v(S_{t+1})
(来自定义)。
一般来说函数值相等并不会使参数相等。同样的方式 f(x + a) = f(x + b)
并不意味着 a=b
表示 f(x) = x^2
因为它也适用于 x=0, a=-1, b=1.