Monte Carlo政策评价混乱

Monte Carlo policy evaluation confusion

我无法理解 Monte Carlo 政策评估算法。我读到的是 G 是访问特定状态后的平均值 return,比方说 s1,这是第一次。这是否意味着对该状态 s1 之后到剧集结束的所有奖励进行平均,然后将结果值分配给 s1?或者这是否意味着在 s1 中采取行动所获得的立即奖励在多个情节中取平均值?

Monte Carlo 策略评估的目的是找到给定策略 π 的值函数。策略的价值函数只是告诉我们处于某种状态,然后永远遵循该策略或直到剧集结束将产生的预期累积折扣奖励。它告诉我们一个状态的预期return

因此,Monte Carlo 估计此价值函数的方法是简单地 运行 策略并跟踪每个状态的 return;当我第一次达到一个状态时,我在剩下的情节中累积了多少折扣奖励?对您观察到的所有这些进行平均(return 每个您访问的州,每个您 运行 的剧集)。

Does this mean averaging all rewards following that state s1 to the end of the episode and then assigning the resulting value to s1? Or does it mean the immediate reward received for taking an action in s1 averaged over multiple episodes?

所以,你的第一个想法是正确的。