我可以在 Q-learning 中设计一个非确定性的奖励函数吗?

Can I design a non-deterministic reward function in Q-learning?

在Q-learning算法中,有一个奖励函数,奖励对当前状态采取的行动。我的问题是我可以有一个非确定性的奖励函数,它会受到对状态执行操作的时间的影响。

例如,假设在下午 1 点对状态采取的行动的奖励是 r(s,a)。几次迭代后(假设现在是下午 3 点),系统触及相同的状态并执行与下午 1 点相同的操作。下午 3 点给的奖励一定要和下午 1 点给的一样吗?或者可以考虑时间来设计奖励函数(即相同状态和相同动作但在不同时间给予的奖励可以不同)。

以上是我想问的问题,还有一点我想说的是,我不想把时间当作一个状态的特征。这是因为在这种情况下 none 的状态可以是相同的(时间总是在增加)。

我的第一句话是你的最后一句话,即将时间作为状态的一部分。正如你所说,时间总是在增加,但它也是周期性的。所以,也许你的奖励函数可能取决于时间的某些重复特征。例如,每天的某个时间点是下午 3 点。

另一方面,奖励函数可以是随机的,对确定性函数没有限制。但是,请考虑到该政策将倾向于优化 预期 returns。因此,如果您的智能体每次访问相同的 [state, action] 对时都获得完全不同的奖励,则您建模环境的方式可能有问题。