Monte Carlo政策评价混乱
Monte Carlo policy evaluation confusion
我无法理解 Monte Carlo 政策评估算法。我读到的是 G
是访问特定状态后的平均值 return,比方说 s1
,这是第一次。这是否意味着对该状态 s1
之后到剧集结束的所有奖励进行平均,然后将结果值分配给 s1
?或者这是否意味着在 s1
中采取行动所获得的立即奖励在多个情节中取平均值?
Monte Carlo 策略评估的目的是找到给定策略 π 的值函数。策略的价值函数只是告诉我们处于某种状态,然后永远遵循该策略或直到剧集结束将产生的预期累积折扣奖励。它告诉我们一个状态的预期return。
因此,Monte Carlo 估计此价值函数的方法是简单地 运行 策略并跟踪每个状态的 return;当我第一次达到一个状态时,我在剩下的情节中累积了多少折扣奖励?对您观察到的所有这些进行平均(return 每个您访问的州,每个您 运行 的剧集)。
Does this mean averaging all rewards following that state s1
to the end of the episode and then assigning the resulting value to s1
? Or does it mean the immediate reward received for taking an action in s1
averaged over multiple episodes?
所以,你的第一个想法是正确的。
我无法理解 Monte Carlo 政策评估算法。我读到的是 G
是访问特定状态后的平均值 return,比方说 s1
,这是第一次。这是否意味着对该状态 s1
之后到剧集结束的所有奖励进行平均,然后将结果值分配给 s1
?或者这是否意味着在 s1
中采取行动所获得的立即奖励在多个情节中取平均值?
Monte Carlo 策略评估的目的是找到给定策略 π 的值函数。策略的价值函数只是告诉我们处于某种状态,然后永远遵循该策略或直到剧集结束将产生的预期累积折扣奖励。它告诉我们一个状态的预期return。
因此,Monte Carlo 估计此价值函数的方法是简单地 运行 策略并跟踪每个状态的 return;当我第一次达到一个状态时,我在剩下的情节中累积了多少折扣奖励?对您观察到的所有这些进行平均(return 每个您访问的州,每个您 运行 的剧集)。
Does this mean averaging all rewards following that state
s1
to the end of the episode and then assigning the resulting value tos1
? Or does it mean the immediate reward received for taking an action ins1
averaged over multiple episodes?
所以,你的第一个想法是正确的。