我可以在 Q-learning 中设计一个非确定性的奖励函数吗？

Can I design a non-deterministic reward function in Q-learning?

在Q-learning算法中，有一个奖励函数，奖励对当前状态采取的行动。我的问题是我可以有一个非确定性的奖励函数，它会受到对状态执行操作的时间的影响。

例如，假设在下午 1 点对状态采取的行动的奖励是 r(s,a)。几次迭代后（假设现在是下午 3 点），系统触及相同的状态并执行与下午 1 点相同的操作。下午 3 点给的奖励一定要和下午 1 点给的一样吗？或者可以考虑时间来设计奖励函数（即相同状态和相同动作但在不同时间给予的奖励可以不同）。

以上是我想问的问题，还有一点我想说的是，我不想把时间当作一个状态的特征。这是因为在这种情况下 none 的状态可以是相同的（时间总是在增加）。

我的第一句话是你的最后一句话，即将时间作为状态的一部分。正如你所说，时间总是在增加，但它也是周期性的。所以，也许你的奖励函数可能取决于时间的某些重复特征。例如，每天的某个时间点是下午 3 点。

另一方面，奖励函数可以是随机的，对确定性函数没有限制。但是，请考虑到该政策将倾向于优化 预期 returns。因此，如果您的智能体每次访问相同的 [state, action] 对时都获得完全不同的奖励，则您建模环境的方式可能有问题。