OpenAI gym:什么时候需要重置?
OpenAI gym: when is reset required?
虽然我可以设法将示例和我自己的代码获取到 运行,但我更好奇 OpenAI gym API 背后的真实语义/期望,尤其是 Env.reset ()
什么时候重置expected/required?每集结尾?还是只有在创建环境之后?
我宁愿在每一集之前认为它是有道理的,但我无法明确地阅读它!
您通常会在一整集之后使用重置。所以这可能是在您达到 mdp 中的终端状态之后,或者在您达到最大时间步数(由您设置)之后。我通常也会在训练开始时重置它。
因此,如果您处于起始状态 'A' 并且您想要达到状态 'Z',您将 运行 您的时间步长从 'A' -> 'B' -> 'C' ...,然后当你到达终端状态 'Z' 时,你使用重置开始新的情节,这将带你回到 'A'。
for episode in range(iterations):
state = env.reset() // first state
for time_step in range(1000): //max amount of iterations
action = take_action(state)
state, reward, done, _ = env.step(action)
if done:
break // takes you to the next episode where the environment is reset
虽然我可以设法将示例和我自己的代码获取到 运行,但我更好奇 OpenAI gym API 背后的真实语义/期望,尤其是 Env.reset ()
什么时候重置expected/required?每集结尾?还是只有在创建环境之后?
我宁愿在每一集之前认为它是有道理的,但我无法明确地阅读它!
您通常会在一整集之后使用重置。所以这可能是在您达到 mdp 中的终端状态之后,或者在您达到最大时间步数(由您设置)之后。我通常也会在训练开始时重置它。
因此,如果您处于起始状态 'A' 并且您想要达到状态 'Z',您将 运行 您的时间步长从 'A' -> 'B' -> 'C' ...,然后当你到达终端状态 'Z' 时,你使用重置开始新的情节,这将带你回到 'A'。
for episode in range(iterations):
state = env.reset() // first state
for time_step in range(1000): //max amount of iterations
action = take_action(state)
state, reward, done, _ = env.step(action)
if done:
break // takes you to the next episode where the environment is reset