强化学习中 Horizon 与折扣因子的关系
Relationship of Horizon and Discount factor in Reinforcement Learning
RL中的折扣因子gamma和horizon有什么联系。
到目前为止,我了解到 horizon 是代理的生存时间。直觉上,具有有限 horizon 的代理将选择不同于必须永远存在的行为。在后一种情况下,代理将尝试最大化它在未来很长一段时间内可能获得的所有预期奖励。
但是折扣因子的思路也是一样的。接近零的 gamma 值是否使 horizon 有限?
Horizon 是指agent 关心它能收到多少奖励 到未来多少步,这与agent 的生存时间有点不同。通常,您可以将任何您想要的任意范围定义为 objective。您可以定义一个 10 步范围,在该范围内,代理会做出一个决策,使其能够在接下来的 10 个时间步中获得最大的奖励。或者我们可以选择 100、1000 或 n 步范围!
通常,n-step 范围使用 n = 1 / (1-gamma) 定义。
因此,使用 gamma = 0.9 将实现 10 步范围,而使用 gamma = 0.99
可以实现 100 步范围
因此,任何小于 1 的 gamma 值都意味着视界是有限的。
RL中的折扣因子gamma和horizon有什么联系。
到目前为止,我了解到 horizon 是代理的生存时间。直觉上,具有有限 horizon 的代理将选择不同于必须永远存在的行为。在后一种情况下,代理将尝试最大化它在未来很长一段时间内可能获得的所有预期奖励。
但是折扣因子的思路也是一样的。接近零的 gamma 值是否使 horizon 有限?
Horizon 是指agent 关心它能收到多少奖励 到未来多少步,这与agent 的生存时间有点不同。通常,您可以将任何您想要的任意范围定义为 objective。您可以定义一个 10 步范围,在该范围内,代理会做出一个决策,使其能够在接下来的 10 个时间步中获得最大的奖励。或者我们可以选择 100、1000 或 n 步范围!
通常,n-step 范围使用 n = 1 / (1-gamma) 定义。 因此,使用 gamma = 0.9 将实现 10 步范围,而使用 gamma = 0.99
可以实现 100 步范围因此,任何小于 1 的 gamma 值都意味着视界是有限的。